AI晶片黑馬Groq一夜爆紅:成本推算爭議不斷前員工現員工互撕
在OpenAI推出又一爆款力作AI視訊生成模型Sora後,連帶著偏上游的AI晶片賽道熱度一點即著。創始成員來自GoogleTPU團隊的美國存算一體AI晶片公司Groq便是最新贏家。這家創企自稱其自研AI推理引擎LPU做到了“世界最快推理”,由於其超酷的大模型速度演示、遠低於GPU的token成本,這顆AI晶片最近討論度暴漲。
連原阿里副總裁賈揚清都公開算賬,分析LPU和H100跑大模型的採購和營運成本到底差多少。
就在Groq風風火火之際,全球最大AI晶片公司英偉達陷入了一些振盪。今日英偉達官員宣將在3月18日-21日舉辦年度技術盛會GTC24,但其股市表現卻不甚理想。受投資人快速撤股影響,英偉達今日股價降低4.35%,創去年10月以來最大跌幅,一日市值縮水780億美元。
▲英偉達太平洋時間2月20日股價出現顯著下跌
Groq則在社群平台上歡歡喜喜頻繁發文加轉發,分享其合作夥伴及網友們對LPU的實測結果及正面評價。一些正面觀點認為,LPU將改變運行大語言模型的方式,讓本地運行成為主流。
根據Groq及一些網友分享的技術示範影片及截圖,在LPU上跑大語言模型Mixtral 8x7B-32k,產生速度快到接近甚至超過500tokens/s,遠快於公開可用的OpenAI ChatGPT 4。
▲輸入相同指令,ChatGPT 4產生答案的時間約1分鐘,而在Groq上執行的Mixtral 8x7B-32k只用時11秒。
「這是一場革命,不是進化。」Groq對自己的進展信心爆棚。
2016年底,GoogleTPU核心團隊的十個人中,有八人悄悄組隊離職,在加州山景城合夥創辦了新公司Groq。接著這家公司就進入神隱狀態,直到2019年10月才透過一篇題為《世界,認識Groq》的博客,正式向世界宣告自己的存在。
隨後「官網喊話」成了Groq的特色,尤其是近期,Groq接連發文「喊話」馬斯克、山姆阿爾特曼、祖克柏等AI大佬。特別是在《嘿薩姆…》文章中,公然「嫌棄」OpenAI的機器人太慢了,並給自家LPU打廣告,聲稱運行大語言模型和其他生成式AI模型的速度是其他AI推理解決方案速度的10倍。
現在,Groq繼續保持高調,除了官號積極出面互動外,前員工和現任員工還在論壇上「撕」起來了。前員工質疑實際成本問題,現員工則抨擊這位前員工離開並創辦了一家Groq的競爭對手+沒做出“世界最低延遲的大語言模型引擎”+沒保證“匹配最便宜的token價格”。
面向LPU客戶的大語言模型API存取已開放,提供免費10天、100萬tokens試用,可從OpenAI API切換。
Groq致力於實現最便宜的每token價格,承諾其價格「超過同等上市型號的已發布供應商的任何已公佈的每百萬tokens價格」。
據悉,Groq下一代晶片將於2025年推出,採用三星4nm製程工藝,能效預計相較前一代提高15~20倍,尺寸將變得更大。
執行相同任務的晶片數量也將大幅減少。目前Groq需要在9個機架中用576顆晶片才能完成Llama 2 70B推理,而到2025年完成這項任務可能只需在2個機架使用大約100個晶片。
01 .
1秒內寫出數百個單詞,
輸出tokens吞吐量最高比競品快18倍
依照Groq的說法,其AI推理晶片能將運行大語言模型的速度提高10倍、能源效率提高10倍。
要體驗LPU上的大語言模型,需要先建立一個Groq帳戶。
輸入提示詞「美國最好的披薩是什麼?」跑在LPU上的Mixtral模型飛速給出回答,比以前慢慢生成一行一行字的體驗好很多。
它還支援對生成的答案進行修改。
在公開的大語言模型基準測試上,LPU取得了壓倒性戰績,運行Meta AI大語言模型Llama 2 70B時,輸出tokens吞吐量比所有其他基於雲端的推理供應商最高要快18倍。
對於Time to First Token,其縮短到0.22秒。由於LPU的確定性設計,響應時間是一致的,從而使其API提供最小的可變性範圍。這意味著更多的可重複性和更少的圍繞潛在延遲問題或緩慢反應的設計工作。
AI寫作助手創企HyperWriteAI的CEO Matt Shumer評價LPU“快如閃電”,“不到1秒寫出數百個單字”,“超過3/4的時間花在搜尋上,而非生成”,“大語言模型的運行時間只有幾分之一秒」。
有網友分享了影像產生的區域提示,並評價「非常印象深刻」。
02 .
賈揚清分析採購和營運成本:
比H100伺服器貴多了
Groq晶片採用14nm製程工藝,搭載230MB片上共享SRAM,內存頻寬達80TB/s,FP16算力為188TFLOPS,int8算力為750TOPS。
Groq在社群平台上解答了一些常見問題:1、LPU為每token提供很好的價格,因為效率高且擁有從晶片到系統的堆疊,沒有中間商;2、不賣卡/晶片,除非第三方供應商將其出售給研究/科學應用團體,銷售內部系統;3、其設計適用於大型系統,而非單卡用戶,Groq的優勢來自大規模的設計創新。
與許多大模型晶片不同的是,Groq的晶片沒有HBM、沒有CoWoS,因此不受HBM供應短缺的限制。
在對Meta Llama 2模型做推理基準測試時,Groq將576個晶片互連。依照先前Groq分享的計算方法,英偉達GPU需要大約10~30J來產生token,而Groq每token大約需要1~3J,也就是說推理速度是原來的10倍,。說性價比提高了100倍。
Groq拿一台英偉達伺服器和8機架Groq設備做對比,並聲稱非常確定配備576個LPU的Groq系統成本不到英偉達DGX H100的1/10,而後者的運行價格已超過40萬美元。等於說Groq系統能達到10倍的速度下,總成本只有1/10,也就是消耗的空間越多,就越省錢。
自稱是「Groq超級粉絲」的原阿里副總裁、創辦AI infra創企Lepton AI的賈揚清則從另一個角度來考慮性價比,據他分析,與同等算力的英偉達H100伺服器成本比較,Groq LPU伺服器實際要耗費更高的硬體採購成本和營運成本:
1. 每張Groq卡的記憶體為230MB。對於Llama 70B模型,假設採用int8量化,完全不計推理的記憶體消耗,則最少需要305張卡片。實際上需要的更多,有報道是572張卡,因此我們按照572張卡來計算。
2. 每張Groq卡的價格為2萬美元,因此購買572張卡的成本為1144萬美元。當然,因為銷售策略和規模效益,每張卡的價格可能會打折,姑且按照目錄價來計算。
3. 572張卡,每張卡的功耗平均是185W,不考慮外設,總功耗為105.8kW。 (注意,實際上會更高)
4. 現在資料中心平均每千瓦每月的價格在200美元左右,也就是說,每年的電費是105.8 x 200 x 12 = 25.4萬美元。 (注意,實際上會更高)
5. 基本上,採用4張H100卡可實現Groq的一半性能,也就是說,一台8卡H100與上面的性能相當。 8卡H100的標稱最大功率為10kW(實際上大概在8-9kW),因此每年電費為2.4萬美元或更低一些。
6. 今天8卡H100的採購成本約為30萬美元。
7. 因此,如果運作三年,Groq的硬體採購成本是1144萬美元,營運成本是76.2萬美元或更高。 8卡H100的硬體購買成本是30萬美元,營運成本為7.2萬美元或更低一些。
如果以這個演算法,運行3年,Groq的採購成本將是H100的38倍,營運成本將是H100的10倍。
賈揚清還在評論區談道:“老實說,我們對當前的token價格+速度SLA組合感到不適。換句話說,我們對token價格感到滿意,但如果並行調用API,我們無法保證速度。”
03.
存算一體+軟體定義硬體:
編譯器優先,開發速度快,易客製化調試
Groq聯合創辦人兼CEO Jonathan Ross曾宣稱,相較於使用英偉達GPU,LPU集群將為大語言推理提供更高吞吐量、更低延遲、更低成本。
「12個月內,我們可以部署10萬個LPU;24個月內,我們可以部署100萬個LPU。」Ross說。
▲Groq領導階層
根據官網訊息,LPU代表語言處理單元,是Groq打造的一種新型端對端處理單元,旨在克服大語言模型的運算密度和記憶體頻寬瓶頸,運算能力超過GPU和CPU,能夠減少計算每個單字所需時間,更快產生文字序列。消除外部記憶體瓶頸使得LPU推理引擎能夠在大語言模型上提供比GPU好幾個數量級的效能。
LPU採用了單核心時序指令集電腦架構,無需像傳使用高頻寬儲存(HBM)的GPU那樣頻繁地從記憶體中載入數據,能有效利用每個時脈週期,降低成本。
▲傳統GPU記憶體結構
▲Groq晶片記憶體結構
Groq晶片的指令是垂直走向,而資料流向東西流動,利用位置和功能單元相交以執行操作。透過將運算和記憶體存取解耦,Groq的晶片在處理資料時能進行大量讀寫,即一步之內有效進行計算與通信,提供低延遲、高效能和可預測的準確性。
其特點包括出色的時序效能、單核心架構、大規模部署可維護的同步網路、能自動編譯超過500億參數的大語言模型、即時記憶體存取、較低精度水準下保持高準確度。
▲單一LPU架構
「編譯器優先」是Groq的秘密武器,使其硬體媲美專用積體電路(AISC)。但與功能固定的AISC不同的是,Groq採用軟體定義硬體的思路,利用了一個可以適應和優化不同模型的自訂編譯器,使其編譯器和體系結構共同構成了一個精簡的、穩健的機器學習推理引擎,支援自訂優化,以平衡效能與靈活性。
▲Groq的簡化軟體定義硬體方法釋放了額外的晶片空間和處理能力
受軟體優先想法的啟發,Groq將執行控制和資料流控制的決策步驟從硬體轉移到了編譯器,以調度跨網路的資料移動。所有執行計劃都在軟體堆疊中進行,不再需要硬體調度器來弄清楚如何將東西搬到晶片上。這釋放了寶貴的晶片空間,並提供了額外的記憶體頻寬和電晶體來提高效能。
▲傳統的非確定性網路與軟體調度網路的比較
Groq的簡化架構去除了晶片上對AI沒有任何處理優勢的多餘電路,實現了更高效的晶片設計,每平方毫米的性能更高。其晶片將大量的算術邏輯單元與大量的片上記憶體結合,並擁有充足頻寬。
由於控制流程已進入軟體棧,硬體是一致且可預測的,開發人員可以精確獲知記憶體使用情況、模型效率和延遲。這種確定性設計使用戶可在將多晶片擴展連接時,精確把控運行一次計算需要多長時間,更加專注於演算法並更快地部署解決方案,從而簡化了生產流程。
擴充性方面,當Groq晶片擴展到8卡、16卡、64卡,所支援的效能和延遲如下:
Groq工程師認為,必須謹慎使用HBM的原因是它不僅涉及延遲,還有「非確定性」問題。 LPU架構的一大優點是可以建構能快速互連的數百個晶片的系統,並知道整個系統的精確時間在百萬分之幾以內。而一旦開始整合非確定性組件,就很難確保對延遲的承諾了。
04.
結論:AI晶片是時候上演新故事了
Groq氣勢洶洶地向「世界最快大模型推理晶片」的目標發動總攻,為高性能AI推理市場帶來了新的期待。
在系統級晶片採購和營運成本方面,Groq可能還難以做到與H100匹敵,但從出色的單batch處理和壓低token價格來看,其LPU推理引擎已經展現出相當的吸引力。
隨著生成式AI應用進入落地潮,AI晶片賽道也是時候多上演一些新故事了。