Cerebras打破在單個設備上訓練大規模AI模型的紀錄
作為世上最大加速器芯片CS-2 Wafer Scale Engine 背後的公司,Cerebras 剛又宣布了另一個里程碑—— 在單個設備上完成了目前最大的自然語言處理(NLP)人工智能模型的訓練。此前也有人嘗試在智能手錶這樣的可穿戴設備設備上訓練AI 模型,但Cerebras 這次又將參數提升到了20 億的量級。
Wafer Scale Engine-2 晶圓級芯片資料圖(來自:Cerebras)
本次演示使用了OpenAI 的120 億參數DALL-E,且所有工作負載無需擴展到橫跨多個加速器的平台上去完成,從而極大地降低了對基礎設施和軟件的複雜性要求。
不過需要指出的是,單個CS-2 系統本身就已經可以媲美超算—— 7nm 單晶圓(通常可容納數百枚主流芯片),擁有驚人的2.6 萬億個晶體管、85 萬個內核、40GB 集成緩存,且封裝功耗高達15kW 。
Cerebras 尝试在单个芯片上保留多达 200 亿个参数的 NLP 模型,以显著降低数以千计的 GPU 训练成本、扩展所需的相关硬件需求,并且消除了在它们之间划分模型的技术难度。
Cerebras 指出,這也是常規NLP 工作負載的痛點之一,有時動輒需要耗費數月時間才能完成。
由於高度定制,每個正在處理的神經網絡、GPU 規格、以及將它們聯繫到一起的網絡,都是獨一無二的—— 這些元素必須在初次訓練前就搞定,且無法做到跨系統移植。
至於OpenAI 的GPT-3 自然預覽處理模型,它有時已經能夠編寫出讓你誤以為是真人所撰寫的整篇文章,且具有1750 億個驚人的參數。
不過DeepMind 在2021 年底推出的Gopher,已將這個數字大幅提升到了2800 億,且Google Brain 甚至宣布訓練了一個超萬億參數的Switch Transformer 模型。
Cerebras 首席執行官兼聯合創始人Andrew Feldman 表示:更大的NLP 模型,意味著它的準確度也更高。
但通常只有極少數公司擁有如此龐大的必要資源和專業知識,來分解這些大型模型、並將之分散到數百、或數千個GPU 上去艱苦運算。
正因如此,我們只看到過極少數公司能夠訓練大型NLP 模型—— 這對行業內的其他人來說過於昂貴、耗時、且難以使用。
今天,Cerebras 很自豪地宣布普及了GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和GPT-NeoX 20B,讓整個AI 生態系統都能夠在幾分鐘內建立大型模型、並在單個CS-2 平台上展開訓練。
不過與CPU 領域類似,主頻只是衡量性能的其中一項指標。比如Chinchilla 就嘗試通過使用更少的參數(700 億個),得出了較GPT-3 和Gopher 更好的結果。