1.5T記憶體挑戰英偉達8顆晶片撐起3個GPT-4:華人AI晶片獨角獸估值365億
高階GPU持續缺貨之下,一家要挑戰英偉達的晶片新創公司成為業界熱議焦點。8枚晶片跑大模型,就能支援5兆參數(GPT-4的三倍) 。這是獨角獸企業SambaNova剛剛發布的新型AI晶片SN40L——型號中40代表是他們第四代產品,L代表專為大模型(LLM)優化:高達1.5T的內存,支援25.6萬個token的序列長度。
CEO Rodrigo Liang表示,目前業界標準做法下運行萬億參數大模型需要數百枚晶片,我們的方法使總擁有成本只有標準方法的1/25。
SambaNova目前估值50億美元(約365億人民幣),累計完成了6輪總計11億美元的融資,投資者包括英特爾、軟銀、三星、GV等。
他們不僅在晶片上要挑戰英偉達,業務模式上也說要比英偉達走的更遠:直接參與幫助企業訓練私有大模型。
目標客戶上野心更是很大:瞄準世界上最大的2000家企業。
1.5TB記憶體的AI晶片
最新產品SN40L,由台積電5奈米製程製造,包含1020億晶體管,峰值速度638TeraFLOPS。
與英偉達等其他AI晶片更大的不同在於新的三層Dataflow記憶體系統。
520MB片上SRAM內存
65GB的高頻寬HBM3內存
以及高達1.5TB的外部DRAM內存
與主要競品相比,英偉達H100最高擁有80GB HBM3內存,AMD MI300擁有192GB HBM3內存。
SN40L的高頻寬HBM3記憶體實際上比前兩者小,更依賴大容量DRAM。
Rodrigo Liang表示,雖然DRAM速度較慢,但專用的軟體編譯器可以智慧地分配三個記憶體層之間的負載,也允許編譯器將8個晶片視為單一系統。
除了硬體指標,SN40L針對大模型所做的最佳化還有同時提供密集和稀疏計算加速。
他們認為大模型中許多權重設定為0,像其他資料一樣去執行操作很浪費。
他們找到一種軟體層面的加速辦法,與調度和數據傳輸有關,但沒有透露細節,「我們還沒準備好向公佈是如何做到這一點的」。
諮詢機構Gartner的分析師Chirag Dekate認為,SN40L的一個可能優勢在於多模態AI。
GPU的架構非常嚴格,面對影像、影片、文字等多元資料時可能不夠靈活,而SambaNova可以調整硬體來滿足工作負載的要求。
目前,SambaNova的晶片和系統已獲得不少大型客戶,包括世界排名前列的超算實驗室,日本富嶽、美國阿貢國家實驗室、勞倫斯國家實驗室,以及諮詢公司埃森哲等。
商業模式也比較特別,晶片不單賣,而是出售其客製化技術堆疊,從晶片到伺服器系統,甚至包括部署大模型。
為此,他們與TogetherML共同開發了BloomChat,這是一個1760億參數的多語言聊天大模型。
BloomChat建立在BigScience組織的開源大模型Bloom之上,並在來自OpenChatKit、Dolly 2.0和OASST1的OIG上進行了微調。
訓練過程中,它使用了SambaNova獨特的可重配置資料流架構,然後在SambaNova DataScale系統進行訓練。
這也是這家公司最大被投資人熱捧之外的最大爭議點之一,很多人不看好一家公司既做晶片又做大模型。
給每家大企業打造150個大模型
在與The Next Platform網站交流時,CEO Rodrigo Liang表示:
用於大模型訓練的公開資料已快耗盡,但對參數數量的追求仍在增加。
各種大模型的效能相差只有幾個百分點,這不是大家該玩的遊戲。
他認為大模型與生成式AI商業化的下一個戰場是企業的私有數據,尤其是大企業。
這些企業坐擁大量的數據,但他們不知道其中大部分是什麼。
對於企業私有大模型的型態,SambaNova也有與眾不同的看法。
他們認為最終企業內部不會運行像GPT-4或像GoogleGemini那樣的超大模型,而是根據不同資料子集創建150個獨特的模型,聚合參數超過萬億。
相當於把GPT-4等大模型內部的Mixture of Experts(專家混合)架構擴展到整個系統,稱為Composition of Experts(專家合成)。
在企業運作的每個節點運行一個完整且經過專門調整的基礎模型,分別用法律語料庫、製造語料庫、風險管理語料庫、財富管理語料庫、客戶銷售語料庫、客戶支援語料庫等等不同資料訓練。
這些專家模型之間透過一種軟體路由或負載平衡器聯在一起,收到推理請求後決定具體向哪個模型推送提示詞。
這項策略與GPT-4和GoogleGemini等做法形成鮮明對比,巨頭大多希望創造一個能泛化到數百萬個任務的巨型模型。
分析師認為技術上可能谷歌的做法性能更強,但SambaNova的方法對企業來說更實用。
沒有任何一個模型或人能完整存取企業的所有數據,限制每個部門能存取的專家模型,就能限制他們所能存取的數據。
史丹佛系晶片公司,華人工程師主力
SambaNova成立於2017年,2020年之前都比較低調。
聯創3人都是史丹佛背景,連產品系列名Cardinal(深紅色)都是史丹佛的暱稱與代表顏色。
CEO Rodrigo Liang是前Sun/甲骨文工程副總裁,也有人將這個名字解讀為暗指甲骨文老對頭IBM的DeepBlue(深藍)。
另外兩位共同創辦人都是史丹佛教授。
CTO Kunle Olukotun是電機工程教授,因多核心晶片架構方面的研究而聞名,開發了首批支援線程級推測(TLS) 的晶片之一。
Christopher Ré是電腦科學副教授,專注於方向機器學習和資料分析的速度和可擴展性。
此外團隊中還有不少華人工程師。
從官網公開資訊來看,SambaNova的領導團隊中,至少有3名華人。
Jonathan Chang,擁有UC柏克萊的機械工程學士學位以及南加州大學的MBA學位。
他在建構高成長方面擁有20多年的經驗。在加入SambaNova之前,Chang在特斯拉工作了近9年。
Marshall Choy,先前曾擔任甲骨文公司係統產品管理和解決方案開發副總裁,監督了數十個行業的企業硬體和軟體產品的上市。
Penny Li,在EDA工具和微處理器設計方面擁有超過27年的經驗。此前,她曾在IBM和甲骨文工作。
如果去領英搜尋還能發現更多華人團隊成員。
目前SambaNova包含SN40L晶片的人工智慧引擎已上市,但定價並未公開。
根據Rodrigo Liang的說法,由8個SN40L組成的群集總共可處理5兆參數,相當於70個700億參數大模型。
全球2000強的企業只需購買兩個這樣的8晶片集群,就能滿足所有大模型需求。
參考連結:
[1]https://spectrum.ieee.org/ai-chip-sambanova
[2]https://www.nextplatform.com/2023/09/20/sambanova-tackles-generative-ai-with-new-chip-and-new-approach/
[3]https://sambanova.ai/resources/