台積電3D晶圓鍵合工藝讓Graphcore AI芯片性能大漲40%

得益於台積電3D 晶圓鍵合（wafer-on-wafer）技術，總部位於英國的Graphcore 能夠在不大刀闊斧改變自家專用AI 處理器內核的情況下，顯著提升其計算性能。Graphcore 高管稱，名為Bow 的新型組合芯片，將被率先投放於倫敦的某個地區。

Bow 與舊款Colossus MK2 芯片均使用了TSMC N7 工藝製造（圖自：Graphcore）

在電壓低於前身的情況下，Bow 還可運行得更快速（1.85 vs 1.35 GHz），意味著計算機迅雷神經網絡的速度提升了40%、同時能耗降低了16% 。更棒的是，用戶無需修改軟件，即可獲得這些益處。

Graphcore 首席技術官兼聯合創始人Simon Knowles 表示：“我們正在進入一個先進封裝的時代，通過將多個矽芯片組裝在一起，我們得以在其它方面彌補性能增長不斷放緩的摩爾定律”。

作為比較，英特爾Foveros 方案選擇了將切割後的芯片連接到其它芯片或晶圓上。而台積電的SoIC WoW 技術，則是將兩個完整的芯片晶圓鍵合到了一起。

每個芯片上的銅焊盤在晶圓對齊時匹配，再將兩個晶片疊壓到一起時讓焊盤熔斷。我們可將至視作某種冷焊，接著將頂部晶圓削薄到僅數微米，最後將鍵合晶圓切割成芯片。

BOW 實測性能增益

在Graphcore 的案例中，其在一塊晶圓上填滿了該公司的第二代AI 處理器，擁有1472 個智能處理單元（IPU）和900MB 片上緩存。

這些處理器已在商業系統中得到應用，並在最近一次MLPerf 基準測試中交出了相當不錯的答卷。

至於另一個晶片，其擁有一套相應的供電芯片（不包含晶體管或其它有源器件），配備了電容並通過矽通孔（TSV）來垂直連接。

值得一提的是，電容器組件形成在矽片上深且窄的溝槽中（類似DRAM）。通過將這些電荷儲存組件放置在靠近晶體管的位置，以實現更平滑的功率傳輸，從而使IPU 內核在較低電壓下運行得更快。

能效增益

若缺乏這一方案，Graphcore 就必須將IPU 工作電壓提升到更高，才能維持1.85 GHz 的工作頻率。此外借助電源芯片，也可助力其達成該時鐘頻率、並減少能源開銷。

Graphcore 高管補充道，Wafer-on-Wafer 技術使得芯片之間的鏈接密度可高於將單個芯片連接到晶圓上，但也面臨一批晶圓中難免有少數存在缺陷的問題。

通過鍵合兩片晶圓，會使得成品芯片的缺陷率翻番。為了緩解這種情況的發生，Graphcore 選擇了一套機智的應對方法—— 與其它AI 處理器一樣，IPU 由許多重複、冗餘的處理器內核和其它部分組成。

公司聯合創始人兼首席執行官Nigel Toon 指出，任何缺陷都可通過內置的保險電路，讓它們與IPU 的其餘部分隔離開來。

TSMC 晶圓鍵合工藝的層級示意

有趣的是，儘管BOW 尚未在供電芯片上堆砌晶體管，但Simon Knowles 暗示道—— 當前工作只能算是邁出了第一部，該公司將在不久的將來“走得更遠”。

此外該公司披露了一些計劃，比如將打造可訓練“人腦規模”人工智能的超級計算機—— 在神經網絡中具有數百億的參數數量級。

而以英國數學家IJ“Jack”Good 命名的“Good 計算機”—— 由512 個系統/ 8192 個IPU）、大容量存儲、CPU 和網格組成—— 將能夠處理超過10 ExaFlops（千億億次）的浮點運算。

在4PB 內存和每秒超10PB 帶寬的加持下，Graphcore 預計每台超算造價在1.2 億美元左右，且有望於2024 年交付使用。

WONGCW 網誌