又一位英偉達「殺手」亮相:性能是H100數倍,成本僅1/10,支援萬億參數模型
在近日召開的Hot Chips 2024大會上,美國AI晶片新創公司SambaNova首次詳細介紹了其新推出的全球首款面向萬億參數規模的人工智慧(AI)模型的AI晶片系統— —基於可重構資料流單元(RDU) 的AI 晶片SN40L。
據介紹,基於SambaNova 的SN40L 的8晶片系統,可以為5 兆參數模型提供支持,單一系統節點上的序列長度可達256k+。對比英偉的H100晶片,SN40L不僅推理性能達到了H100的3.1倍,在訓練性能也達到了H100的2倍,總擁有成本更是僅有其1/10。
SambaNova SN40L基於台積電5nm製程工藝,擁有1020億個晶體管(英偉達H100為800億個晶體管),1040個自研的“Cerulean”架構的RDU計算核心,整體的算力達638TFLOPS(BF16),雖然這個算力不算太高,但是關鍵在於SN40L還擁有三層資料流記憶體,包括:520MB的片上SRAM記憶體(遠高於先前Groq推出的號稱推理速度是英偉達GPU的10倍、功耗僅1/10的LPU所整合的230MB SRAM),整合的64GB的HBM內存,1.5TB的外部大容量內存。這也使得其能夠支援萬億參數規模的大模型的訓練和推理。
SambaNova在推出基於8個SN40L晶片系統的同時,也推出了16個晶片的系統,將可獲得8GB片內SRAM、1TB HBM和24TB外部DDR內存,使得片上SRAM和集成的HBM內存之間的頻寬高達25.5TB/s,HBM和外部DDR記憶體之間的頻寬可達1600GB/s。高頻寬將會帶來明顯的低延遲的優勢,例如運行Llama 3.1 8B模型,延遲低於0.01s。
下圖是SambaNova SN40L的內部結構,包括:計算單元(PCU)、儲存單元(PMU)、網狀開關(S)、片外記憶體和IO(AGCU)。
SN40L 內部的運算單元(PCU)的內部架構,它具有一系列靜態階段,而不是傳統的獲取/解碼等執行單元。 PCU可以作為串流媒體單元(從左到右的資料)運行,藍色是交叉車道減少樹。在矩陣計算操作中,它可以用作收縮陣列。支援BF16、FP32、INT32、INT8等資料類型。
下圖是SN40L 的高階儲存單元架構圖。這些是可程式管理的暫存區,而不是傳統的快取。
SN40L 的網狀網絡擁有三種實體網絡,包括向量網路、標量網絡和控製網絡。
AGCU單元用於存取片外記憶體(HBM和DDR ),而PCU用於存取片內SRAM暫存區。
下圖是SN40L 的頂層互聯結構:
SN40L 的關鍵核心在於其可重構資料流架構,可重構資料流架構使其能夠透過編譯器映射優化各個神經網路層和核心的資源分配。
下面是一個例子,說明Softmax是如何被編譯器捕獲,然後映射到硬體的。
可以看到,將它對應到大語言模型(LLM)和生成式AI的Transformer模型,下面是映射。在解碼器內部,有許多不同的操作。
下圖是解碼器放大圖。每個方格內都是一個操作符。同時,通常可以運行多個操作符,並把資料保存在晶片上以便重複使用。
以下是SambaNova對運算子如何在GPU上融合的猜測,不過他們也指出這可能不準確。
在RDU中,整個解碼器是一個核心呼叫。編譯器負責這種映射。
解碼器作為RDU上的單一核心。
回到Transformer的結構,下圖展示了解碼器的不同功能。可以看到,每個函數呼叫都有啟動開銷。
不是32個調用,而是寫成一個調用。
換句話說,這意味著調用開銷減少了,因為只有一個調用,而不是多個調用。結果,增加了晶片對數據做有用工作的時間。
SambaNova 執行長兼創辦人Rodrigo Liang 表示:「借助資料流,你可以不斷改進這些模型的映射,因為它是完全可重構的。因此,隨著軟體的改進,你獲得的收益不是增量的,而是相當可觀的,無論是在效率方面還是在性能方面。
下面是SambaNova的16個SN40L晶片系統在Llama3.1 405B/70B/7B上的表現,在Llama 3.1 7B模型下,以完全的16bit精度運行,其每秒的Token生成數竟然高達1100個。這比先前Groq推出的基於LPU(號稱推理速度是英偉達GPU的10倍,功耗僅1/10)的伺服器系統在Llama 3 8B上的最快基準測試結果每秒產生800個Token還要快。即使在Llama3.1 405B模型上,以完全的16bit精度運行,16個SN40L晶片的系統每秒Token生成數也能夠高達114個。而在Llama 3.1 7B模型下,其每秒的Token生成數更是高達1100個。由於記憶體容量限制,與其最接近的競爭對手需要數百塊晶片來運行每個模型的單一實例,因為GPU 提供的總吞吐量和記憶體容量相對較低。
SN40L在Llama 3.1 70B模型上進行批量推理和吞吐量縮放表現,隨著批量大小的變化,吞吐量接近理想規模。
根據SambaNova 介紹,基於8個SN40L晶片的標準AI伺服器系統在運行80億參數的AI大模型時,速度達到了基於8張英偉達H100加速卡的DGX H100系統的3.7倍(每生成20個Token所耗費的時間),而整個系統所佔用的空間也只有DGX H100的1/19,模型切換時間也僅有DGX H100系統的1/15。
在晶片推理性能方面,SN40L達到了英偉達H100的3.1倍;在訓練性能方面,SN40L也達到了英偉達H100的2倍。
總結來說,SambaNova 可以在8個SN40L晶片的系統上運行數百個大模型(在16個SN40L晶片的系統上可以同時運行多達1000 個Llama 3 7B大模型),同時還能夠保持很快的響應速度,擁有完全精度。更關鍵的是,其總擁有成本比競爭對手低10 倍(雖然未明確是哪一款競品晶片,但從前面的比較來看,應該說的是H100)。
「SN40L的速度展現了Dataflow的魅力,它加速了SN40L 晶片上的資料移動,最大限度地減少了延遲,並最大限度地提高了處理吞吐量。它比GPU 更勝一籌——結果就是即時AI, 」SambaNova Systems 聯合創始人、史丹佛大學知名電腦科學家Kunle Olukotun 表示。
值得一提的是,在基於SN40L晶片的系統之上,SambaNova 還構建了自己的軟體堆疊,其中包括今年2月28日首次發布的擁有1萬億參數的Samba-1 模型,也稱為Samba- CoE(專家組合),其使得企業能夠組合使用多個模型,也可以單獨使用,並根據公司資料對模型進行微調和訓練。
在芯智訊看來,SN40L相比目前的一些AI晶片來說,擁有顯著的優勢,例如其可重構的資料流架構,可以調整硬體來滿足各類工作負載要求,使得其可以很好的處理影像、影片及文字等不同的資料類型,適合多模態AI應用。但是,相對於英偉達的GPU可以靈活的處理各種模型來說,SN40L在靈活性上還是要略遜一籌,因為相關模型必須要經過專門的調整才能在其上面運行。而且,英偉達強大的CDUA生態對其來說也是一大挑戰。
不過,在AI模型參數越來越大,所需的晶片數量和資金成本越來越高的背景之下,SN40L在性能和成本上的優勢,以及可以輕鬆實現對於萬億參數大模型的支持,因此也有與英偉達直接競爭的機會。或許也因為如此,SambaNova也獲得了資本的青睞,目前已經累積了超過10億美元的融資。