Groq發布全球首款每秒1000萬億次運算的AI加速卡
2016年底,谷歌TPU團隊的十位核心開發者中的八位悄悄離職,創辦了一家名為Groq 的機器學習系統公司,是進軍AI加速卡的第100家、是商業化推向市場的第2家,是首家達到每秒1000萬億次運算的公司。如果做對比,那麼它是當前NVIDIA最強大顯卡性能的四倍。
The Groq Tensor Streaming Processor (TSP) 要求每個內核達到300W,而且他們已經成功做出來了。而且更幸運的是,已將其從劣勢轉變為TSP的最大優勢。
這款TSP是一塊巨大的矽處理器,幾乎只有矢量和矩陣處理單元以及高速緩存,因此沒有任何控制器或後端,編譯器具有直接控制權。TSP分為20個超級通道。超級通道按從左到右的順序構建:矩陣單元(320 MAC),交換單元,存儲單元(5.5 MB),矢量單元(16 ALU),存儲單元(5.5 MB),交換單元,矩陣單元( 320個MAC)。
指令流(只有一個)被饋送到超通道0的每個組件中,其中矩陣單元有6條指令,開關單元有14條指令,存儲單元有44條指令,向量單元有16條指令。每個時鐘週期,單元執行操作,並將數據移到超通道內的下一個位置。每個組件都可以從其相鄰鄰居發送和接收512B。
超級通道的操作完成後,它將所有內容傳遞到下一個超級通道,並接收上方的超級通道(或指令控制器)擁有的所有內容。指令始終在超級通道之間垂直向下傳遞,而數據僅在超級通道內水平傳輸。
在ResNet-50中,它可以在任何批處理大小下每秒執行20,400個推理(I / S),推理延遲為0.05毫秒。Nvidia的Tesla V100可以以128的批量大小執行7,907 I / S,或者以1的批量大小執行1,156 I / S。
但有了Groq 的硬件和軟件,編譯器就可以準確地知道芯片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將數據和指令移動到正確的位置,這樣就不會有延遲。到達硬件的指令流是完全編排好的,使得處理速度更快,而且可預測。
開發人員可以在Groq 芯片上運行相同的模型100 次,每次得到的結果都完全相同。對於安全和準確性要求都非常高的應用來說(如自動駕駛汽車),這種計算上的準確性至關重要。另外,使用Groq 硬件設計的系統不會受到長尾延遲的影響,AI 系統可以在特定的功率或延遲預算內進行調整。
這種軟件優先的設計(即編譯器決定硬件架構)理念幫助Groq 設計出了一款簡單、高性能的架構,可以加速推理流程。該架構既支持傳統的機器學習模型,也支持新的計算學習模型,目前在x86 和非x86 系統的客戶站點上運行。
根據官方發布的新聞稿,該TSP已經作為Nimbix Cloud的加速器面向部分客戶開放。