聊天機器人ChatGPT從2022年11月下旬開放用戶免費試用後,因其可以根據用戶輸入的要求,生成非常文字、散文、笑話、詩歌甚至程式碼,使用體驗不但非常直覺,過程更有如在跟正常人類互動一般,馬上掀起一股使用熱潮。根據瑞士銀行集團的研究,ChatGPT在2023年1月活躍用戶就已達到1億,成為史上成長最快的消費者應用程式。
這股因為ChatGPT帶起的生成式AI(Generative AI)應用風潮,馬上引起包括微軟(Microsoft)及Google等國際大廠的重視,紛紛將相關技術整合至旗下產品。如微軟在發表加入了ChatGPT的全新搜尋引擎Bing升級後,股價應聲上揚逾4%,一夜市值飆漲超800億美元,生成式AI的影響力可見一斑。
在上一個十年,各行各業都積極的使用AI,得到很好的成果,但ChatGPT使用大型語言模型(Large Language Model;LLM)發展生成式AI的成果出乎預期的好,也讓AI即將進到下一個AI 2.0的時代。
進入AI 2.0時代的門檻
但想要掌握AI 2.0的趨勢,得到屬於自己或是適用領域的LLM基礎模型(LLM Foundation Model),其實需要跨過不少門檻。想要啟動LLM,業者首先要孰悉分布式訓練大規模模型的技術,知道如何在不同的節點上一起訓練一個大模型,如Pipeline Parallelism(PP)、Tensor Parallelism(TP)及Data Parallelism(DP)這三個在跨節點模型訓練過程中很重要的參數,由於大模型及所需資料集相當龐大,單一片 GPU 的記憶體是無法完全容納,需從模型的寬度 (TP) 及深度 (PP),以及資料集 (DP) 進行適當切割,讓多片 GPU 的記憶體共同容納模型及資料集進行高效運算,因此優化 TP、DP 及 PP 是大模型訓練效能的關鍵之一。除此之外,有效管理記憶體也是訓練效能關鍵之一,在平行運算的領域中,Zero Redundancy 的技術可有效管理記憶體用量減少冗餘記憶體的使用,再加上 1F1B (One Forward One Backward) 的策略安排,活化記憶體運用,減少記憶體閒置,也能有效提升訓練效能。
其次則是要有對應的大算力來支持,因為大模型FLOPs不斷攀升,以GPT-3 175B為例,需要的計算量就高達 3.64 x 103 Petaflop/s-days,而且不只要有大算力,還必須配合高效率儲存系統如GPFS,才能有效啟動LLM的訓練。
第三個啟動門檻是要能夠理解fine-tuning、prompt tuning相關技術,如透過In-context Learning方法訓練LLM基礎模型,將下游任務轉化成模型的 prompt 輸入,減少模型參數儲存,提升模型對任務的理解力,進而達到模型泛化的能力,趨近人類思考模式,將原有的大批資料集學習方式,轉變成 zero shot 或 few shot 的學習方式。針對特定領域或目標進行 prompt tuning 調優,擬定領域專屬 prompt 策略,來引導模型生成符合所需風格和目標的文本,制定符合使用情境的 prompt template,提升模型學習目標的速度,可以加速訓練過程的進展。儘管AI模型能夠生成高質量的內容,但在某些情況下,生成的文本仍可能不符合用戶的期望。進行prompt tuning可以提高生成內容的質量,節省時間和成本,增加內容的多樣性,提高與用戶的互動效果,對於提高AI生成內容的實用性和效益有很大的幫助。
第四個啟動門檻是要克服大模型推論(inference)的挑戰,因為LLM的佈署與推論需要配合優化的環境,因為LLM已經大到單一GPU無法負荷,需要對應multi-GPU inference的推論架構,才能達到低latency的要求,也需要提升GPU核心性能的支援,如支持縱向、水平和記憶體融合為一體的多維融合技術。
最後一個啟動門檻是要準備高效能系統環境建置,包括運算、網路、儲存,都要能夠完成協同作業,達到最佳化設定模型訓練環境的目標。
開源大語言模型有助AI 2.0普及
由此可知,LLM的開發門檻極高,即使是像Microsoft、Google等國際大廠,想要只憑一己之力來啟動LLM,都不是一件很簡單的事情,也因此國際大廠基於各種商業和其他原因,多半會限制旗下客戶對其完整模型的訪問使用。
所幸由全球上千位研究者組成的BigScience研究團隊,由法國超級電腦Jean Zay訓練達117天,具有1,760億個參數,參數量/架構與GPT3相近的BLOOM LLM(BigScience Large Open-science Open-access Multilingual Language Model)已經在2022年7 月完成,資料集包含46種語言和13種程式語言,共1.5TB,包含西班牙文、日文、德文、中文或多種印度及非洲語言,主要任務包括文章分類、對話產生、文本產生、翻譯、知識回答(語意搜尋)及文章摘要,使用者只要選擇一種語言,就能要求BLOOM撰寫食譜、翻譯或摘要,也能要求BLOOM撰寫程式碼。
值得注意的是,BLOOM是第一個「開源」的大語言模型,不管是學術界、非營利組織或者中小企業,都有機會能夠使用少數國際大廠才能使用到的資源。但由於BLOOM的資料量與模型規模相當龐大,用戶仍需要面對開發和維護的挑戰,更因為缺乏訓練經驗及人才,要啟動LLM也變得更加困難。
深度學習企業 Lambda Labs 的首席科學家推測,訓練GPT-3模型,需要花上至少460萬美元、耗時355年才能訓練完成,所以就算BLOOM LLM已經開源,大多數業者還是需要能夠幫助業者跨過AI 2.0門檻的資訊顧問服務業者的協助。
AI 2.0顧問服務幫助跨過開發門檻
由於BLOOM的參數多達1,760億個,無法在任一GPU上直接訓練,需要使用平行技術來精準分割模型,優化TP+DP+PP並有效率的分散訓練,加速訓練成效,需要如TWSC提供的世界級超級電腦AIHPC,才能提供BLOOM的巨量模型訓練,並推論在雲端平台上快速運行。
而傳統跨節點平行運算,會隨著節點數的增加造成效能的衰退,例如1台節點的算力為100,以線性理論2台節點應該是200,但實際上可能會只剩180,原因是節點間的通訊傳輸遞減效能。
但由於TWSC的跨節點平行運算環境,是以InfiniBand架構有效發揮各節點間的協同運作,在實作BLOOM的執行成果時,能以跨節點線性的表現,獲得接近線性的加速,提供近乎完美的高效能驗證,可協助用戶完整發揮運算效能,訓練時間也將隨節點數增加而逐步降低。
如使用105台節點及840張GPU,精準切割分配模型做大量的平行運算,訓練的成果非常好,每張GPU卡都能跑到最大效能。可見藉由TWSC雲平台在BLOOM大模型訓練的成果展現,不僅可以助力大模型推論系統優化,更能成功克服Multi-node Inference挑戰。
基於前述BLOOM的具體成果,台智雲也已開始提供「AI 2.0 大算力顧問服務」一站式整合服務,提供AI專家、AIHPC技術環境資源、大型語言模型LLM開發服務,整合優化好相關套件與環境,零風險幫助客戶直接啟動LLM專案,將需求加速轉為可使用的模型與應用,建立專屬於客戶的大語言模型,企業可降低龐大時間投入、技術成本、開發風險、硬體設備和人力投資成本,至少省下數百萬美元的成本,將每分投資都花在刀口上。
● 瞭解「AI 2.0大算力顧問服務」:https://tws.twcc.ai/ai-llm
● 立即報名 3/17 AIHPC x LLM 大語言模型成果展示:https://tws.twcc.ai/2023/02/23/llm2/