AI推理速度提升超10倍Groq LPU能否取代英偉達GPU?
美國人工智慧新創公司Groq最新推出的面向雲端大模型的推理晶片引發了業界的廣泛關注。其最具特色之處在於,採用了全新的Tensor Streaming Architecture (TSA) 架構,以及擁有超高頻寬的SRAM,從而使得其對於大模型的推理速度提高了10倍以上,甚至超越了NVIDIA的GPU。
推理速度比GPU快10倍,功耗僅1/10
根據介紹,Groq的大模型推理晶片是全球首個LPU(Language Processing Unit)方案,是一款基於全新的TSA 架構的Tensor Streaming Processor (TSP) 晶片,旨在提高機器學習和人工智慧等運算密集型工作負載的效能。
雖然Groq的LPU並沒有採用更本高昂的尖端製程工藝,而是選擇了14nm流程,但是憑藉自研的TSA 架構,Groq LPU 晶片具有高度的平行處理能力,可以同時處理數百萬個資料流,並該晶片也整合了230MB容量的SRAM來取代DRAM,以確保記憶體頻寬,其片上記憶體頻寬高達80TB/s。
根據官方的數據顯示,Groq的LPU晶片的性能表現相當出色,可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力,並且在某些機器學習模型上的性能表現可以比常規的GPU 和TPU 提升10到100倍。
Groq表示,基於其LPU晶片的雲端伺服器在Llama2或Mistreal模型在運算和回應速度上遠超基於NVIDIA AI GPU的ChatGPT,其每秒可產生高達500個token。
相較之下,目前ChatGPT-3.5的公開版本每秒只能產生約40個token。
由於ChatGPT-3.5主要是基於NVIDIA的GPU,也就是說,Groq LPU晶片的反應速度達到了NVIDIA GPU的10倍以上。
Groq表示,相對於其他雲端平台廠商的大模型推理性能,基於其LPU晶片的雲端伺服器的大模型推理性能最終實現了比其他雲端平台廠商快18倍。
另外,在能耗方面,NVIDIAGPU需要大約10到30焦耳才能產生響應中的tokens,而Groq LPU晶片僅需1到3焦耳,在推理速度大幅提升10倍的同時,其能耗成本僅有NVIDIAGPU的十分之一,這等於是性價比增加了100倍。
Groq公司在演示中展示了其晶片的強大性能,支援Mistral AI的Mixtral8x7B SMoE,以及Meta的Llama2的7B和70B等多種模型,支援使用4096位元組的上下文長度,並可直接體驗Demo。
不僅如此,Groq還喊話各大公司,揚言在三年內超越NVIDIA。目前該公司的LPU推理晶片在第三方網站上的售價為2萬多美元,低於NVIDIA H100的2.5-3萬美元。
資料顯示,Groq 是一家成立於2016年人工智慧硬體新創公司,核心團隊來自Google最初的張量處理單元(TPU)工程團隊。
Groq 創辦人兼CEO Jonathan Ross是GoogleTPU專案的核心研發人員。該公司硬體工程副總裁Jim Miller 曾是亞馬遜雲端運算服務AWS設計算力硬體的負責人,也曾在英特爾領導了所有Pentium II 工程。
目前該公司籌集了超過6,200 萬美元。
為何採用大容量SRAM?
Groq LPU晶片與大多數其他新創公司和現有的AI處理器有著截然不同的時序指令集電腦(Temporal Instruction Set Computer)架構,它被設計為一個強大的單線程流處理器,配備了專門設計的指令集,旨在利用張量操作和張量移動,使機器學習模型更有效地執行。
此架構的獨特之處在於執行單元、片內的SRAM記憶體和其他執行單元之間的交互作用。它無需像使用HBM(高頻寬記憶體)的GPU那樣頻繁地從記憶體中載入資料。
Groq 的神奇之處不僅在於硬件,還在於軟體。軟體定義的硬體在這裡發揮著重要作用。
Groq 的軟體將張量流模型或其他深度學習模型編譯成獨立的指令流,並事先進行高度協調和編排。編排來自編譯器。它提前確定併計劃整個執行,從而實現非常確定的計算。
「這種確定性來自於我們的編譯器靜態調度所有指令單元的事實。這使我們無需進行任何激進的推測即可公開指令級並行性。晶片上沒有分支目標緩衝區或緩存代理,」Groq 的首席架構師Dennis Abts 解釋。
Groq LPU晶片為了追求效能最大化,因此增加了更多SRAM記憶體和執行區塊。
SRAM全名為「靜態隨機存取記憶體」(Static Random-Access Memory)是隨機存取記憶體的一種。
所謂的“靜態”,是指這種記憶體只要保持通電,裡面儲存的資料就可以恆常保持。
相對之下,動態隨機存取記憶體(DRAM)裡面所儲存的資料則需要週期性地更新。自SRAM推出60多年來,一直是低延遲和高可靠性應用的首選記憶體,
事實上,對於AI/ML 應用來說,SRAM 不僅僅具有自己的優勢。
SRAM 對於AI 至關重要,尤其是嵌入式SRAM,它是效能最高的記憶體,可以將其直接與高密度邏輯核心整合在一起。目前SRAM也是被諸多CPU整合在片內(更靠近CPU運算單元),作為CPU的高速緩存,使得CPU可以更直接、更快速的從SRAM中取得重要的數據,無需去DRAM當中讀取。
只不過,目前旗艦CPU當中的SRAM容量最多也只有數十個MB。
Groq之所以選擇使用大容量的SRAM來取代DRAM 記憶體的原因主要有以下幾點:
1、SRAM 記憶體的存取速度比DRAM 記憶體快得多,這意味著LPU 晶片更快速地處理數據,從而提高計算效能。
2、SRAM 記憶體沒有DRAM 記憶體的刷新延遲,這意味著LPU晶片也可以更有效率地處理數據,減少延遲帶來的影響。
3.SRAM 記憶體的功耗比DRAM 記憶體低,這意味著LPU晶片可以更有效地管理能耗,從而提高效率。
但是,對於SRAM來說,其也有一些劣勢:
1、面積更大:
在邏輯電晶體隨著CMOS製程持續微縮的同時,SRAM的微縮卻十分的困難。事實上,早在20nm時代,SRAM 就無法隨著邏輯電晶體的微縮而相應地微縮。
2、容量小:
SRAM 的容量比DRAM 小得多,這是因為每個bit的資料需要更多的晶體管來存儲,再加上SRAM的微縮非常困難,使得相同面積下,SRAM容量遠低於DRAM等記憶體。這也使得SRAM在面對需要儲存大量資料時的應用受到了限制。
3、成本高:
SRAM 的成本比DRAM高得多,再加上相同容量下,SRAM需要更多的電晶體來儲存數據,這也使得其成本更高。
總的來說,雖然SRAM 在尺寸、容量和成本等方面具有一些劣勢,這些劣勢限制了其在某些應用中的應用,但SRAM 的存取速度比DRAM 快得多,這使得它在某些計算密集型應用中表現得非常出色。
Groq LPU 晶片採用的大容量SRAM 記憶體可提供更高的頻寬(高達80TB/s)、更低的功耗和更低的延遲,從而提高機器學習和人工智慧等運算密集型工作負載的效率。
那麼,與目前AI GPU當中所搭載的HBM 記憶體相比,Groq LPU 晶片整合的SRAM 記憶體又有何優點與缺點呢?
Groq LPU 晶片的SRAM 記憶體容量雖然有230MB,但相較之下AI GPU 中的HBM 容量通常都有數十GB(例如NVIDIA H100,其整合了80GB HBM),這也意味著LPU 晶片可能無法處理更大的數據集和更複雜的模型。在相同容量下,SRAM的成本也比HBM更高。
不過,與HBM 相比,Groq LPU 晶片的所整合的SRAM 的仍然有著頻寬更快(NVIDIA H100的HBM頻寬僅3TB/s)、功耗更低、延遲更低的優勢。
能否取代NVIDIA H00?
雖然Groq公佈的數據似乎表明,其LPU晶片的推理速度達到了NVIDIA GPU的10倍以上,且能耗成本僅是它十分之一,等於是性價比提高了100倍。
但是,Groq並且明確指出其比較的是NVIDIA的哪一款GPU產品。由於目前NVIDIA最主流的AI GPU是H100,因此,我們就拿NVIDIA H100來與Groq LPU來做比較。
由於Groq LPU只有230MB的片上SRAM來作為內存,因此,如果要運行Llama-2 70b模型,即使將Llama 2 70b量化到INT8精度,仍然需要70GB左右的內存。
即使完全忽略記憶體消耗,也需要305張Groq LPU加速卡才夠用。如果考慮到記憶體消耗,可能需要572張Groq LPU加速卡。
官方數據顯示,Groq LPU的平均功耗為185W,即使不計算週邊設備的功耗,572張Groq LPU加速卡的總功耗也高達105.8kW。
假設一張Groq LPU加速卡的價格為2萬美元,因此,購買572張卡的成本高達1144萬美元(規模採購價格應該可以更低)。
根據人工智慧科學家賈揚清分享的數據顯示,目前,數據中心每月每千瓦的平均價格約為20美元,這意味著572張Groq LPU加速卡每年的電費為105.8*200*12=25.4萬美元。
賈揚清也表示,使用4張NVIDIA H100加速卡就可以實現572張Groq LPU一半的效能,這意味著一台8張H100的伺服器的效能大致相當於572張Groq LPU。
而8張H100加速卡的標稱最大功率為10kW(實際上約為8-9千瓦),因此一年電費為僅24000美元或略低。現在一個8張H100加速卡的伺服器的價格約為30萬美元。
顯然,相比較之下,在運行相同的INT8精度的Llama-2 70b模型時,NVIDIA H00的實際性價比遠高於Groq LPU。
即使我們以FP16精度的Llama-2 7b模型來比較,其最低需要14GB的內存來運行,需要約70張Groq LPU加速卡才能夠部署,按照單卡FP16算力188TFLOPs計算,其總算力將達到約13.2PFLOPs。這麼強的算力只是用來推理Llama-2 7b模型屬實有些浪費。
相較之下,單一NVIDIA H100加速卡,其整合的80GB HMB就足以部署5個FP16精度的Llama-2 7b模型,而H100在FP16算力約為2PFLOPs。即使要達到70張Groq LPU加速卡相同的算力,只需要一台8卡NVIDIA H100伺服器就能夠達到。
單從硬體成本來計算,70張Groq LPU加速卡成本約140萬美元,一個8張H100加速卡的伺服器的價格約為30萬美元,顯然,對於運行FP16精度的Llama-2 7b模型來說,採用NVIDIA H100的性價比也遠高於Groq LPU。
當然,這並不是說Groq LPU相對於NVIDIA H100來說毫無優勢,正如前面所介紹的那樣,Groq LPU的主要優勢在於其採用了大容量的SRAM內存,擁有80TB/s的超高的內存頻寬,使得其非常適合較小的模型且需要頻繁從記憶體存取資料的應用場景。
當然,其缺點則在於SRAM的記憶體容量較小,要運行大模型,就需要更多的Groq LPU。
那麼,Groq LPU能否進一步提升其SRAM記憶體容量來彌補這一缺點呢?
答案當然是可以,但是,這將會帶來Groq LPU面積和成本的大幅增加,也會帶來功耗方面的問題。
或許未來Groq可能會考慮,加入HBM/DRAM來提升LPU的適應性。