ChatGPT 帶動 AIGC 趨勢浪潮，克服開發門檻挑戰 — 台智雲推 AI 2.0 顧問服務

2023-02-22

聊天機器人ChatGPT從2022年11月下旬開放用戶免費試用後，因其可以根據用戶輸入的要求，生成非常文字、散文、笑話、詩歌甚至程式碼，使用體驗不但非常直覺，過程更有如在跟正常人類互動一般，馬上掀起一股使用熱潮。根據瑞士銀行集團的研究，ChatGPT在2023年1月活躍用戶就已達到1億，成為史上成長最快的消費者應用程式。

這股因為ChatGPT帶起的生成式AI（Generative AI）應用風潮，馬上引起包括微軟（Microsoft）及Google等國際大廠的重視，紛紛將相關技術整合至旗下產品。如微軟在發表加入了ChatGPT的全新搜尋引擎Bing升級後，股價應聲上揚逾4%，一夜市值飆漲超800億美元，生成式AI的影響力可見一斑。

在上一個十年，各行各業都積極的使用AI，得到很好的成果，但ChatGPT使用大型語言模型（Large Language Model；LLM）發展生成式AI的成果出乎預期的好，也讓AI即將進到下一個AI 2.0的時代。

進入AI 2.0時代的門檻

但想要掌握AI 2.0的趨勢，得到屬於自己或是適用領域的LLM基礎模型（LLM Foundation Model），其實需要跨過不少門檻。想要啟動LLM，業者首先要孰悉分布式訓練大規模模型的技術，知道如何在不同的節點上一起訓練一個大模型，如Pipeline Parallelism（PP）、Tensor Parallelism（TP）及Data Parallelism（DP）這三個在跨節點模型訓練過程中很重要的參數，由於大模型及所需資料集相當龐大，單一片 GPU 的記憶體是無法完全容納，需從模型的寬度 (TP) 及深度 (PP)，以及資料集 (DP) 進行適當切割，讓多片 GPU 的記憶體共同容納模型及資料集進行高效運算，因此優化 TP、DP 及 PP 是大模型訓練效能的關鍵之一。除此之外，有效管理記憶體也是訓練效能關鍵之一，在平行運算的領域中，Zero Redundancy 的技術可有效管理記憶體用量減少冗餘記憶體的使用，再加上 1F1B (One Forward One Backward) 的策略安排，活化記憶體運用，減少記憶體閒置，也能有效提升訓練效能。

其次則是要有對應的大算力來支持，因為大模型FLOPs不斷攀升，以GPT-3 175B為例，需要的計算量就高達 3.64 x 103 Petaflop/s-days，而且不只要有大算力，還必須配合高效率儲存系統如GPFS，才能有效啟動LLM的訓練。

第三個啟動門檻是要能夠理解fine-tuning、prompt tuning相關技術，如透過In-context Learning方法訓練LLM基礎模型，將下游任務轉化成模型的 prompt 輸入，減少模型參數儲存，提升模型對任務的理解力，進而達到模型泛化的能力，趨近人類思考模式，將原有的大批資料集學習方式，轉變成 zero shot 或 few shot 的學習方式。針對特定領域或目標進行 prompt tuning 調優，擬定領域專屬 prompt 策略，來引導模型生成符合所需風格和目標的文本，制定符合使用情境的 prompt template，提升模型學習目標的速度，可以加速訓練過程的進展。儘管AI模型能夠生成高質量的內容，但在某些情況下，生成的文本仍可能不符合用戶的期望。進行prompt tuning可以提高生成內容的質量，節省時間和成本，增加內容的多樣性，提高與用戶的互動效果，對於提高AI生成內容的實用性和效益有很大的幫助。

第四個啟動門檻是要克服大模型推論（inference）的挑戰，因為LLM的佈署與推論需要配合優化的環境，因為LLM已經大到單一GPU無法負荷，需要對應multi-GPU inference的推論架構，才能達到低latency的要求，也需要提升GPU核心性能的支援，如支持縱向、水平和記憶體融合為一體的多維融合技術。

最後一個啟動門檻是要準備高效能系統環境建置，包括運算、網路、儲存，都要能夠完成協同作業，達到最佳化設定模型訓練環境的目標。

開源大語言模型有助AI 2.0普及

由此可知，LLM的開發門檻極高，即使是像Microsoft、Google等國際大廠，想要只憑一己之力來啟動LLM，都不是一件很簡單的事情，也因此國際大廠基於各種商業和其他原因，多半會限制旗下客戶對其完整模型的訪問使用。

所幸由全球上千位研究者組成的BigScience研究團隊，由法國超級電腦Jean Zay訓練達117天，具有1,760億個參數，參數量／架構與GPT3相近的BLOOM LLM（BigScience Large Open-science Open-access Multilingual Language Model）已經在2022年7 月完成，資料集包含46種語言和13種程式語言，共1.5TB，包含西班牙文、日文、德文、中文或多種印度及非洲語言，主要任務包括文章分類、對話產生、文本產生、翻譯、知識回答（語意搜尋）及文章摘要，使用者只要選擇一種語言，就能要求BLOOM撰寫食譜、翻譯或摘要，也能要求BLOOM撰寫程式碼。

值得注意的是，BLOOM是第一個「開源」的大語言模型，不管是學術界、非營利組織或者中小企業，都有機會能夠使用少數國際大廠才能使用到的資源。但由於BLOOM的資料量與模型規模相當龐大，用戶仍需要面對開發和維護的挑戰，更因為缺乏訓練經驗及人才，要啟動LLM也變得更加困難。

深度學習企業 Lambda Labs 的首席科學家推測，訓練GPT-3模型，需要花上至少460萬美元、耗時355年才能訓練完成，所以就算BLOOM LLM已經開源，大多數業者還是需要能夠幫助業者跨過AI 2.0門檻的資訊顧問服務業者的協助。

AI 2.0顧問服務幫助跨過開發門檻

由於BLOOM的參數多達1,760億個，無法在任一GPU上直接訓練，需要使用平行技術來精準分割模型，優化TP+DP+PP並有效率的分散訓練，加速訓練成效，需要如TWSC提供的世界級超級電腦AIHPC，才能提供BLOOM的巨量模型訓練，並推論在雲端平台上快速運行。

而傳統跨節點平行運算，會隨著節點數的增加造成效能的衰退，例如1台節點的算力為100，以線性理論2台節點應該是200，但實際上可能會只剩180，原因是節點間的通訊傳輸遞減效能。

但由於TWSC的跨節點平行運算環境，是以InfiniBand架構有效發揮各節點間的協同運作，在實作BLOOM的執行成果時，能以跨節點線性的表現，獲得接近線性的加速，提供近乎完美的高效能驗證，可協助用戶完整發揮運算效能，訓練時間也將隨節點數增加而逐步降低。

如使用105台節點及840張GPU，精準切割分配模型做大量的平行運算，訓練的成果非常好，每張GPU卡都能跑到最大效能。可見藉由TWSC雲平台在BLOOM大模型訓練的成果展現，不僅可以助力大模型推論系統優化，更能成功克服Multi-node Inference挑戰。

基於前述BLOOM的具體成果，台智雲也已開始提供「AI 2.0 大算力顧問服務」一站式整合服務，提供AI專家、AIHPC技術環境資源、大型語言模型LLM開發服務，整合優化好相關套件與環境，零風險幫助客戶直接啟動LLM專案，將需求加速轉為可使用的模型與應用，建立專屬於客戶的大語言模型，企業可降低龐大時間投入、技術成本、開發風險、硬體設備和人力投資成本，至少省下數百萬美元的成本，將每分投資都花在刀口上。

● 瞭解「AI 2.0大算力顧問服務」：https://tws.twcc.ai/ai-llm

● 立即報名 3/17 AIHPC x LLM 大語言模型成果展示：https://tws.twcc.ai/2023/02/23/llm2/

ChatGPT 帶動 AIGC 趨勢浪潮，克服開發門檻挑戰 — 台智雲推 AI 2.0 顧問服務

進入AI 2.0時代的門檻

開源大語言模型有助AI 2.0普及

AI 2.0顧問服務幫助跨過開發門檻

AIHPC 高速運算

台智雲 TWS

客戶服務及支援

產品服務

解決方案與定價

台智雲 Taiwan AI Cloud

訂閱活動及行銷 EDM

ChatGPT 帶動 AIGC 趨勢浪潮，克服開發門檻挑戰 — 台智雲推 AI 2.0 顧問服務

進入AI 2.0時代的門檻

開源大語言模型有助AI 2.0普及

AI 2.0顧問服務幫助跨過開發門檻

AIHPC 高速運算

台智雲 TWS

客戶服務及支援

產品服務

解決方案與定價

台智雲 Taiwan AI Cloud

Start typing and press enter to search

訂閱活動及行銷 EDM