台積電3D晶圓鍵合工藝讓Graphcore AI芯片性能大漲40%
得益於台積電3D 晶圓鍵合(wafer-on-wafer)技術,總部位於英國的Graphcore 能夠在不大刀闊斧改變自家專用AI 處理器內核的情況下,顯著提升其計算性能。Graphcore 高管稱,名為Bow 的新型組合芯片,將被率先投放於倫敦的某個地區。
Bow 與舊款Colossus MK2 芯片均使用了TSMC N7 工藝製造(圖自:Graphcore)
在電壓低於前身的情況下,Bow 還可運行得更快速(1.85 vs 1.35 GHz),意味著計算機迅雷神經網絡的速度提升了40%、同時能耗降低了16% 。更棒的是,用戶無需修改軟件,即可獲得這些益處。
Graphcore 首席技術官兼聯合創始人Simon Knowles 表示:“我們正在進入一個先進封裝的時代,通過將多個矽芯片組裝在一起,我們得以在其它方面彌補性能增長不斷放緩的摩爾定律”。
作為比較,英特爾Foveros 方案選擇了將切割後的芯片連接到其它芯片或晶圓上。而台積電的SoIC WoW 技術,則是將兩個完整的芯片晶圓鍵合到了一起。
每個芯片上的銅焊盤在晶圓對齊時匹配,再將兩個晶片疊壓到一起時讓焊盤熔斷。我們可將至視作某種冷焊,接著將頂部晶圓削薄到僅數微米,最後將鍵合晶圓切割成芯片。
BOW 實測性能增益
在Graphcore 的案例中,其在一塊晶圓上填滿了該公司的第二代AI 處理器,擁有1472 個智能處理單元(IPU)和900MB 片上緩存。
這些處理器已在商業系統中得到應用,並在最近一次MLPerf 基準測試中交出了相當不錯的答卷。
至於另一個晶片,其擁有一套相應的供電芯片(不包含晶體管或其它有源器件),配備了電容並通過矽通孔(TSV)來垂直連接。
值得一提的是,電容器組件形成在矽片上深且窄的溝槽中(類似DRAM)。通過將這些電荷儲存組件放置在靠近晶體管的位置,以實現更平滑的功率傳輸,從而使IPU 內核在較低電壓下運行得更快。
能效增益
若缺乏這一方案,Graphcore 就必須將IPU 工作電壓提升到更高,才能維持1.85 GHz 的工作頻率。此外借助電源芯片,也可助力其達成該時鐘頻率、並減少能源開銷。
Graphcore 高管補充道,Wafer-on-Wafer 技術使得芯片之間的鏈接密度可高於將單個芯片連接到晶圓上,但也面臨一批晶圓中難免有少數存在缺陷的問題。
通過鍵合兩片晶圓,會使得成品芯片的缺陷率翻番。為了緩解這種情況的發生,Graphcore 選擇了一套機智的應對方法—— 與其它AI 處理器一樣,IPU 由許多重複、冗餘的處理器內核和其它部分組成。
公司聯合創始人兼首席執行官Nigel Toon 指出,任何缺陷都可通過內置的保險電路,讓它們與IPU 的其餘部分隔離開來。
TSMC 晶圓鍵合工藝的層級示意
有趣的是,儘管BOW 尚未在供電芯片上堆砌晶體管,但Simon Knowles 暗示道—— 當前工作只能算是邁出了第一部,該公司將在不久的將來“走得更遠”。
此外該公司披露了一些計劃,比如將打造可訓練“人腦規模”人工智能的超級計算機—— 在神經網絡中具有數百億的參數數量級。
而以英國數學家IJ“Jack”Good 命名的“Good 計算機”—— 由512 個系統/ 8192 個IPU)、大容量存儲、CPU 和網格組成—— 將能夠處理超過10 ExaFlops(千億億次)的浮點運算。
在4PB 內存和每秒超10PB 帶寬的加持下,Graphcore 預計每台超算造價在1.2 億美元左右,且有望於2024 年交付使用。