快20倍還便宜NVIDIA GPU的「掘墓人」出現了?
晶片新創公司Etched近日宣布推出了一款針對Transformer架構專用的AISC晶片“Sohu”,並聲稱其在AI大語言模型(LLM)推理性能方面擊敗了NVIDIA最新的B200 GPU,AI性能達到了H100的20倍。這也意味著Sohu晶片將可以大幅降低現有AI資料中心的採購成本和安裝成本。
目前,Etched公司已就其Sohu晶片的生產與台積電4nm製程展開直接合作,並且已從頂級供應商處獲得足夠的HBM 和伺服器供應,以快速提高第一年的生產能力。
一些早期客戶已經向Etched公司預訂了數千萬美元的硬體。
一、AI性能超過NVIDIA H100的20倍,是如何做到的?
根據Etched公司介紹,Sohu是世界上第一個基於Transformer架構的ASIC。
根據Etched公司揭露的數據顯示,一台配備了8顆Sohu晶片的伺服器每秒可以處理超過500,000 個Llama 70B Token,達到了同樣配備8張NVIDIA H100 GPU加速卡的伺服器的20倍。
同樣,也遠遠超過了配備8張NVIDIA最新的B200 GPU加速卡的伺服器約10倍。
△基準測試針對的是FP8 精確度的Llama-3 70B:無稀疏性、8x 模型並行、2048 輸入/128 輸出長度。使用TensorRT-LLM 0.10.08(最新版本)計算的8xH100,8xGB200 的數字是估算的。
Etched公司表示,Sohu速度比NVIDIA的最新一代Blackwell架構的B200 GPU還要快一個數量級,而且價格更便宜。可以幫助客戶建構GPU 無法實現的產品。
不過,這裡還是要強調以下,雖然Sohu的AI性能要比NVIDIAGPU更好,但這是有一個前提的,因為Sohu是專為基於Transformer架構的大模型定制的,所以其也僅支持基於Transformer架構的大模型加速。
「透過將Transformer架構整合到我們的晶片中,雖然無法運行大多數傳統的AI 模型,例如為Instagram 廣告提供支援的DLRM、像AlphaFold 2 這樣的蛋白質折疊模型、像Stable Diffusion 2 這樣的舊的圖像模型,以及CNN、RNN 或LSTM等模型,但針對基於Transformer架構的大模型,Sohu將是有史以來最快的AI晶片,沒有哪個晶片能夠與之匹敵。
1、更高的運算利用率
由於Sohu只運行Transformer這一種類型的演算法,因此可以刪除絕大多數控制流邏輯,從而擁有更多數學計算邏輯。因此,Sohu的FLOPS 利用率超過90%(而使用TRT-LLM 的GPU上FLOPS 利用率約為30%)。
雖然NVIDIA H200 擁有989 TFLOPS 的FP16/BF16 運算能力(無稀疏性),這無疑是非常強大的,甚至比Google的新Trillium 晶片還要好。
但NVIDIA已經發布的B200的運算能力僅高出25%(每個晶片1,250 TFLOPS)。這是由於GPU 的絕大部分區域都用於可程式性,因此專注於Transformer 可以讓晶片進行更多的運算。
例如,建構單一FP16/BF16/FP8 乘加電路需要10,000 個電晶體,這是所有矩陣數學的基石。 NVIDIA H100 SXM 有528 個張量核心,每個都有4 x 8 × 16FMA 電路。
因此,NVIDIA H100 有27 億個專用於張量核心的電晶體。但是H100 擁有800 億個電晶體!這意味著H100 GPU 上只有3.3% 的電晶體用於矩陣乘法!
這是NVIDIA和其他靈活的AI 晶片經過深思熟慮的設計決定的。如果想要支援所有類型的模型(例如CNN、LSTM、SSM 等),那麼沒有比這更好的設計了。
而Etched公司的Sohu晶片僅支援運行Transformer架構的AI大模型,這使得其可以在晶片上安裝更多的FLOPS,且無需降低精度或稀疏性。
2.提升記憶體頻寬利用率
通常來說,AI推理會受到記憶體頻寬的限制,計算的限制相對較小。但事實上,對於像Llama-3這樣的現代模型來說,需要更高的運算力來提升頻寬的使用率。
如果使用NVIDIA和AMD 的標準基準:2048 個輸入標記和128 個輸出標記。大多數AI 產品的提示比完成時間長得多(即使是新的Claude 聊天應用程式在系統提示中也有1,000 多個標記)。
在GPU 和Sohu上,推理是分批運行的。每個批次載入一次所有模型權重,並在批次中的每個標記中重複使用它們。
通常,大語言模型輸入是計算密集型的,而輸出是記憶體密集型的。當我們將輸入和輸出標記與連續批次處理結合時,工作負載變得非常計算密集。
以下是大語言模型連續批次處理的範例。這裡我們運行具有四個輸入標記和四個輸出標記的序列;每種顏色都是不同的序列。
我們可以擴展相同的技巧來運行具有2048 個輸入標記和128 個輸出標記的Llama-3-70B。讓每個批次包含一個序列的2048 個輸入標記和127 個不同序列的127 個輸出標記。
如果我們這樣做,每個批次將需要大約(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs,而只需要載入70B params × 2 bytes per param = 140 GB模型權重和大約127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV快取權重。這比記憶體頻寬要多得多。
NVIDIA H200需要6.8 PFLOPS的運算才能最大限度地利用其記憶體頻寬。這是在100%的利用率下——如果利用率為30%,將需要3倍的計算量。
由於Sohu擁有如此之多的運算能力且利用率極高,因此可以運行巨大的吞吐量而不會出現記憶體頻寬瓶頸。
3.軟體問題不再是一場惡夢
在GPU 和TPU 上,通常軟體開發是一場噩夢。處理任意CUDA 和PyTorch 程式碼需要極為複雜的編譯器。第三方AI 晶片(AMD、英特爾、AWS 等)在軟體上總共花費了數十億美元,但收效甚微。
但由於Etched公司的Sohu只運行Transformers,因此開發人員只需要為Transformer 寫軟體!
大多數運行開源或內部模型的公司都使用特定於Transformer 的推理庫,如TensorRT-LLM、vLLM 或HuggingFace 的TGI。
這些框架非常僵化——雖然你可以調整模型超參數,但實際上不支援更改底層模型程式碼。但這沒關係,因為所有Transformer 模型都非常相似(甚至是文字/圖像/視訊模型),調整超參數就是你真正需要的。
雖然這支持了95% 的AI 公司,但最大的AI 實驗室還是採用客製化。他們有工程師團隊手動調整GPU 核心以擠出更多的利用率,逆向工程哪些暫存器對每個張量核心的延遲最低。
Etched公司表示,「有了Sohu,您不再需要進行逆向工程。因為我們的軟體(從驅動程式到核心再到服務堆疊)都將是開源的。如果您想實現自訂轉換器層,您的內核嚮導可以自由地這樣做。
4.成本優勢
對於目前的AI基礎市場營運商來說,NVIDIA的AI GPU是最為高昂的一項投資,其H100 80G版本的價格高達3萬美元,即便是便宜的英特爾Gaudi 3 的價格也要15,650美元左右。
現在一座大型的AI數據中心的建設已經達到了數百億美元,甚至傳聞微軟和OpenAI正計劃推出被稱為“星際之門”(Stargate)的AI超級計算機,用來為OpenAI提供更強的算力支持,該項目的總成本或將超過1150億美元。顯然,這當中NVIDIAAI GPU將會佔據相當大的部分成本。
而這些高能耗的GPU也將帶來龐大的能源供應支出(以現有的發展速度,許多地區的能源供應已經不足以支撐大型AI資料中心的建置)互聯支出和散熱支出。
如果一顆Etched的Sohu晶片就能夠取代20顆NVIDIA H100晶片,那麼這無疑將會帶來龐大的採購及建造成本和營運成本的降低。
二、專用晶片替代GPU已不可避免
在Etched看來,近年來雖然GPU性能得到了成長,但實際上並沒有變得更好,因為主要是透過更先進的製程製程以及更大的晶片面積來實現的。
近四年來,GPU晶片單位面積的運算能力(TFLOPS) 幾乎保持不變。例如NVIDIA的GB200、AMD的MI300、英特爾的Gaudi 3 和亞馬遜的Trainium2 幾乎都將兩塊晶片算作稱一張加速卡,以實現「雙倍」效能。
面對越來越龐大的大語言模型對於AI算力需求的快速增長,GPU晶片在摩爾定律放緩以及單位面積AI算力提昇放緩的背景之下,已經難以滿足需求,因此提高性能的唯一方法就是採用專用晶片。
Etched公司指出,在Transformer架構的模型統治世界之前,許多公司都建立了靈活的AI 晶片和GPU 來處理數百種不同的演算法模型。
例如:NVIDIA的GPU、Google的TPU、亞馬遜的Trainium、AMD的MI系列加速器、英特爾的Gaudi加速器、Graphcore 的IPU、SambaNova SN 系列晶片、Cerebras的CS系列晶圓級AI晶片、Groq的GroqNode、Tenstorrent 的Grayskull、D-Matrix 的Corsair、寒武紀的思源等。
但幾乎沒有廠商製造過專門針對Transformer架構演算法的專用AI 晶片(ASIC)。因為晶片專案至少將花費5,000 萬到1 億美元,需要數年時間才能投入生產。
如果真的一個特定演算法模型推出專用的AI晶片,很可能在這段期間由於新的更優秀演算法架構出現,而使得原來的專用的AI晶片不再有效,這將會沒有市場。
但現在情況變了,Transformer 架構的演算法模型市場規模正在快速成長。在ChatGPT 出現之前,Transformer 推理的市場規模約為5,000 萬美元,而現在已達到數十億美元。
所有大型科技公司都使用Transformer 架構的模型,例如OpenAI、Google、亞馬遜、微軟、Meta 等。
另外,AI演算法經過多年的發展,已經開始出現架構上的融合趨勢。 AI模型過去發展很快,因此可能每個幾個月就會有新的AI模型出來。
但自GPT-2以來,最先進的模型架構幾乎保持不變,不論是OpenAI 的GPT 系列、Google 的PaLM、Facebook 的LLaMa,甚至Tesla FSD 都是基於Transformer架構。
△基於Transformer架構的模型驚人地相似。諸如SwiGLU 活化和RoPE 編碼之類的調整被廣泛應用於LLM、嵌入模型、影像修復和視訊生成。
△雖然GPT-2 和Llama-3 是相隔五年的最先進的(SoTA) 模型,但它們的架構幾乎相同,唯一的主要區別是規模。
在此背景之下,如果演算法模型架構開始趨於穩定,那麼想要進一步提升算力,專擁的ASIC晶片將會是很好的選擇。
特別是在目前基於GPU的AI訓練和推理基礎設施成本超過100億美元時,這樣高昂的成本的壓力之下,專用的AISC是不可避免的,因為1%的改進就足以覆蓋專用AISC的成本。
事實上,在特定演算法模型上,ASIC 的速度可能會比GPU 快幾個數量級。例如,當針對比特幣礦機的AISC晶片在2014 年進入市場時,傳統的利用GPU 來「挖礦」的做法很快就被拋棄,因為使用AISC比使用GPU來挖掘比特幣更便宜。
顯然,在AI演算法模型基礎架構開始趨於穩定,GPU算力提升遭遇瓶頸以及成本越來越高的情況下,人工智慧領域可能也會發生同樣的事情。這也正是Etched公司下重註推出基於Transformer架構專用的AISC晶片「Sohu」的原因。
三、對於未來的一場豪賭
與NVIDIA等頭部的AI公司一樣,Etched公司也預測,在五年內,AI模型在大多數標準化測試中將變得比人類更聰明。
Etched公司進一步指出, Meta訓練的Llama 400B(2024 SoTA,比大多數人類都聰明)所用的計算量,比OpenAI 在GPT-2(2019 SoTA)上所用的計算量要高出50,000 倍。透過為人工智慧模型提供更多運算力和更好的數據,它們會變得更聰明。
規模化將是未來幾十年來唯一持續有效的秘訣,每家大型人工智慧公司(Google、OpenAI / 微軟、Anthropic / 亞馬遜等)都將在未來幾年投入超過1000億美元來維持規模的成長。我們正處於有史以來最大規模的基礎建設。
OpenAI 執行長Sam Altman先前就曾表示:“規模化確實是一件好事。當我們在太陽周圍建造出戴森球時,我們就可以討論是否應該停止規模化,但在此之前不能停止。”
Anthropic 執行長Dario Amodei也表示:“我認為(我們)的規模可以擴大到1000 億美元,我們將在幾年內實現這一目標。”
不過,如果依照現在的AI資料中心算力,再擴大1,000 倍,將會面臨非常昂貴的成本。下一代資料中心的成本將超過一個小國一年的GDP。以目前的速度,現有的硬體、電網和資金投入都跟不上需求。
Etched公司表示:「我們並不擔心資料耗盡。無論是透過合成資料、註釋管道還是新的AI 標記資料來源,我們都認為資料問題其實是推理計算問題。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei 、 Google DeepMind CEO Demis Hassabis 似乎都同意這一觀點。
基於這樣的發展趨勢,Etched公司認為,未來能夠獲勝的大模型一定會是那些能夠在硬體上運行速度最快、成本最低的模型。
Transformer 功能強大、實用且利潤豐厚,足以在替代方案出現之前主宰每個主要的AI 計算市場。
目前,Transformer 正在為每個大型AI 產品提供動力:從代理商到搜尋再到聊天。許多AI 實驗室已投入數億美元進行研發,以優化GPU 以支援Transformer。
而目前的和下一代最先進的大模型也都是Transformer架構的。
隨著這些大模型的規模在未來幾年內所需的硬體資源從10 億美元擴大到100 億美元,再到1,000 億美元,測試新架構的風險也隨之飆升。
與其重新測試縮放定律和效能,不如花時間在Transformer 之上建立功能,例如多標記預測等。
現今的許多軟體堆疊也針對Transformer 進行了最佳化。每個流行的函式庫(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用於在GPU 上運行Transformer 架構模型的特殊核心。
許多基於Transformer 建構的功能在替代方案中不易獲得支援(例如推測解碼、樹搜尋)。
所以,未來的硬體堆疊也將持續針對Transformer 進行最佳化。例如,NVIDIA的GB200 特別支援Transformer(TransformerEngine)。
在Etched公司看來,Transformer架構就是未來,「如果我們猜對了,Soho將改變世界。這就是我們下注的原因。」Etched公司在網站上寫道。
在2022年的時候,Etched公司就已經開始下注,開始研發基於Transformer架構的Sohu晶片,當時ChatGPT還沒有推出,圖像和視頻生成模型是U-Nets,自動駕駛汽車由CNN 驅動,而Transformer 架構並未無處不在。顯然這是一場豪賭。
雖然現在看來,Sohu可以支援所有的Transformer架構的AI大模型,像是OpenAI的GPT、Sora,Google的Gemini、Stability AI公司的Stable Diffusion 3 等,但在兩年前,這些模型都還沒出現。
如果,Transformer架構的AI大模型沒有成為主流,再加上無法支援CNN、RNN 、LSTM等傳統模型以及SSM、RWKV 或其他的全新架構的AI大模型,那麼Sohu將會毫無用處。
幸運的是,從目前來看,情況已經對Etched公司有利。從語言到視覺,每個領域的頂級模型現在都是基於Transformer架構的。
這種融合不僅驗證了Etched公司下對了賭注,也有望使Sohu成為十年來最重要的硬體項目。
「像Sohu 這樣的ASIC 晶片進入市場,標誌著進入一條不歸路。其他Transformer 「殺手」要成功,需要在GPU 上的運行速度需要比Transformer 在Sohu 晶片上的運行速度更快。
如果發生這種情況,我們也會為此構重新建構一個ASIC! 」Etched公司非常堅定的說道。
最後說一句,Etched公司的看法與芯智訊在多年前所寫的《NVIDIA的AI盛世危機! 》所表達的核心觀點類似,即GPU並是不專為處理特定AI演算法所設計的,其優勢在於比其他AI晶片更通用,可以適應各種AI演算法,但是當未來AI演算法的演進開始趨於穩定時,那麼屆時專用的以特定演算法為導向的更有效率的ASIC晶片無疑將會更具優勢。
現在越來越多的雲端服務廠商都有推出自研的雲端AI晶片也正是順應這股趨勢。