什麼是 AFS
台灣半導體產業晶圓代工 Foundry 的創新模式,帶動全球 IC 設計業至整體半導體與科技產業生態系數十年的蓬勃發展,而生成式 AI 引爆生產力革命,揭示人工智慧系統的摩爾定律時代到來!
台智雲推出 AFS (AI Foundry Service),透過 AIHPC 高速算力協助企業高效打造專屬大語言模型:在 AI 模型訓練(優化)階段,提供強化繁中語料的「FFM 福爾摩沙大模型」,企業只須準備資料即可展開大模型訓練,有效節省企業前期建置的時間和成本;在 AI 模型推論(部署)階段,除了「雲端」部署服務,更提供市場唯一、整合硬體和軟體的「地端」部署完整方案。
From ChatGPT to IndustrialGPT,AFS (AI Foundry Service) 為企業的 AI 鑄造廠,協助高效率打造符合企業文化與真實需求、提供獨特的實用性的專用模型,兼顧企業資安、合規與隱私的高安全需求,可放心與企業內部系統串接,更具低成本和低門檻優勢,專為企業的生成式 AI 應用和落地賦能。
AFS 特色與優勢
從優化到部署,給您ChatGPT做不到的機密隱私和專屬大模型
整合1,760億參數的預訓練「FFM 福爾摩沙大模型」
讓企業無須從零開始的專業應用磐石
低成本
提供超級電腦環境並按使用量計費,用多少算多少,數千元~數萬元即可快速展開企業大語言模型優化服務。
協助企業有效控管成本,避免浪費,省下龐大的建置成本、開發風險、硬體設備和人力投資環節。
低門檻
提供FFM-BLOOMZ與FFM-LLama2的繁中大模型,以及雲端、地端的模型部署服務,企業無須從零開始建置,且具繁中語意理解與文本生成能力,更接地氣
協助企業快速上手和開發專屬大模型,並可依據各自的規模和需求選擇適合的解決方案。
高效率
基於AIHPC高速算力和no-code平台,企業的1億個tokens優化6小時即可完成,而一次的176B訓練最多可完成21億tokens訓練。
協助企業加速專屬大模型的訓練和部署落地,節省優化成本,強化企業效率。
高安全
符合企業資安、SLA、維運服務、合規與可受稽核等需求,可商業化授權,採租戶隔離制,並提供市場唯一配合地端各式資安需求的部署方案
有效確保企業用戶的機敏資料與紀錄隱私,降低資安風險,安全有保障。
AFS 一站式解決方案
相較自建AIHPC系統、預訓練大模型需耗資上億
協助企業在高效率、高安全的環境,進行模型優化和部署
AFS 應用案例
使用AFS開始打造企業專屬大語言模型
串接外部資料
企業知識管理
未來數值預測
應用案例參考
推論服務API
AFS 大語言基礎模型 X AIHPC 超級電腦高速算力
地端部署完整解決方案
市場唯一.限量開賣 ‧ 搶先預約
AFS 影音
常見問題
台智雲提供企業級一條龍 AFS pipeline : AFS Platform (大型語言模型優化服務),依實際需求使用運算資源量 (Pay As You Go) 對專屬 LLM 模型進行優化調校方案。在訓練完畢後,我們會將企業級 LLM 模型權重及對應的訓練資料邁存放於專屬空間中以供後續部署服務專用。對於企業用戶關心的 AI 2.0 大型語言模型的資安、合規和隱私問題,您可以根據實際需求選擇適合的混合式(Hybrid)模型部署方式,包括「AFS Cloud」(大型語言模型託管服務) 透過 API 在台智雲的雲端進行推論,或「AFS Appliance」(大型語言模型地端部署解決方案) 直接部署專屬模型在地端環境。
您若有模型優化需求,可參考以下情境選擇
情境1:企業依據實際任務需求,依實際運算資源使用量 (Pay As You Go) 進行模型訓練:可使用 AFS Platform。
情境2:進行模型 fine-tuning訓練時,建議1-2 epoch (可以觀察loss的變化) ; 訓練batch_size 會以BLOOMZ的建議設定值在training script中設定。
您若有模型部署推論需求,可參考以下情境選擇
情境2:針對機敏資料與資安考量之客戶,可選擇 AFS Appliance,將企業 fine-tuning 的大語言模型部署到地端。
情境3:針對雲端需求之客戶,可選擇 AFS Cloud,透過雲端託管服務進行模型推論服務,按時計 GPU-小時需求計費。
台智雲的 AI Foundry Service (AFS) 系列為企業用戶提供專屬的“企業級”生成式 AI 解決方案,符合企業需求的資安、SLA、維運服務和合規等方面的要求。AFS 更提供完整一條龍服務,包括從企業用戶 POC 驗證、客製化模型優化 (Fine-tuning)、地端與雲端 Hybrid 模式的模型部署與推論,用戶可依據實際需求選擇適用的服務。請放心,台智雲不會保留用戶在使用 AFS 全系列服務,以及與任何產品互動過程中的所有客戶資料與記錄,也不會作為 FFM 的訓練資料。
此外,AFS 全系列服務亦建構在國家資通安全法規範下,非公務 A 級計算設施之中,您的服務與資料均受有最高級別的資訊安全要求規範。在更高機敏要求下,您亦可選用台智雲提供的「AFS Appliance」(大型語言模型地端部署解決方案) 直接部署專屬模型在地端環境,確保企業內部資料不外流。
企業專屬特定領域內外部資料量如有多達10億tokens的量級,則建議採 Pretrain- SFT 兩階段優化訓練,建立最好效果的企業專屬領域模型。並可以考慮基於BLOOM 250K tokenizer補上新的字典,讓企業專屬領域知識包含專利的翻譯與專屬的詞庫,如某個詞一定要對應到特定一個翻譯詞或專屬領域意義,故建立專屬的字典效果等同從預訓練階段就是把新的字典訓練進去。
如果沒有充足資料進行 pretrain ,也可直接進行 SFT,但建議 SFT 需要資料為以10萬來計算的量,如10萬-50萬的範例。
情境1: {“inputs”(提示句/問句) : “請幫我翻譯為中文\n\n how are you?” “targets”(答句):”你好嗎?”}。 提示句中的”\n”為 換行符號。
資料清理說明:
(1)於訓練輸入提示(Q)末尾,可用換行隔開 prompt/context 即可,不需特別使用特殊分隔符號(例: “\n\n###\n\n”)
(2)資料中不可含換行符號(\r)、不可視文字(例:tab \t)、特殊字(例:\ /), 訓練前需先移除特殊字元或需加上逃逸字元或轉換為特定文字。
(3)輸入/輸出資料可包括結尾符號但非必要。
(4)訓練輸入提示(Q)有重複時,建議需人工先排除。
(5)企業務必先將資料去識別化後 (企業專屬領域內各類敏感資訊) 再上傳台智雲的雲端進行模型預訓練(pre-train) 或微調(fine-tuning)。同時,企業亦可透過第二階段 SFT進行去識別化任務訓練,可訓練 LLM依據企業定義的條件進行內容的去識別化。
(6)完成去識別化 SFT後,即可依據 prompt 進行內容的去識別化的任務。若要進行 SFT 去識別化任務,依據行業別、合規或替換字元之偏好,準備各類去識別化情境的訓練資料。
格式為jsonl檔,內含每筆 sample 資料 ”inputs” 與 “targets” 為一個 pair。且每筆資料總 tokens 數不能超過 2048。
福爾摩沙大模型 (FFM, Formosa Foundation Model) 是台智雲基於大型語言模型 (LLM) 技術所開發的模型,其擁有高達1,760億的參數量。該模型的原始版本為 BLOOMZ open source ,並允許商業化授權使用。台智雲自有的技術研發團隊基於多年的 NLP 領域經驗,通過強化 pre-trained model 的 LLM 技術,進一步提升模型的性能。其在繁中語意的理解和知識領域表現出相對顯著的高品質。特別針對台灣企業用戶在不同領域的多元應用需求,FFM 亦展現了高品質的文本內容生成結果,同時具備整個世界知識和多國語言的能力。
可以支援。透過 LangChain 提供的客製化方式 (參考以下連結:https://python.langchain.com/en/latest/modules/models/llms/examples/custom_llm.html),應用系統開發者可以依據手冊撰寫 custom LLM wrapper,並於其中指定您部署 FFM 大型語言模型的位址。
OpenAI 發表的 GPTs 以及其 GPT marketplace/store 所提供服務的對象主要為一般 users ,目的在建立個人自用的 GPT 服務;而台智雲主要提供企業級用戶可信賴且可掌控的開源大語言模型解決方案,同時提供符合企業合規、資安、稽核等要求的地端推論服務。
主要差異為以下 3 點:
- Nocode 平台 – 台智雲提供零程式碼的模型訓練微調與推論服務
AFS 為完整的 LLM Nocode 平台,方便快速上手 LLM 訓練到推論部署;而 NVIDIA 則提供開發的框架 NeMo,以及需要寫 job 和相關程式的 DGX Cloud 。
- 可信賴開源大語言模型 – 台智雲提供可信賴開源、台灣在地知識以及強化繁中語料的大語言模型方案
台智雲 FFM 為在地台灣知識與強化繁中語料訓練的大語言模型;而 NVIDIA 提供的模型則為 pretrained model 主要支援英語任務,並未經過台灣知識與繁中語料強化。
- 計價模式 – 台智雲針對模型微調以及推論服務佈署皆提供 pay-as-you-go 按實際 GPU-hours 使用量計費
使用 NVIDIA AI Foundry Service 需要支付 NVIDIA AI Enterprise Software License 費用以及採用雲端部署的 infra 費用。此外,若使用 DGX Cloud 則需支付每月計價的高額使用費。