一兆晶體管GPU將到來台積電董事長撰文解讀
在先前的演講介紹中,台積電曾多次談到了萬億晶體管的路線圖。今天,在IEEE網站上,發表了一篇署名為《How We’ll Reach a 1 Trillion Transistor GPU》的文章,講述了台積電是如何達成萬億晶體管晶片的目標。
值得一提的是,本文署名作者MARK LIU(劉德音)和H.-S. PHILIP WONG,其中劉德音是台積電董事長。 H.-S Philip Wong則是史丹佛大學工程學院教授、台積電首席科學家。
在這裡,我們將此文翻譯出來,以颯讀者。
以下為文章正文:
1997 年,IBM 深藍超級電腦擊敗了西洋棋世界冠軍Garry Kasparov。這是超級電腦技術的突破性演示,也是對高效能運算有一天可能超越人類智慧水平的首次展示。在接下來的10年裡,我們開始將人工智慧用於許多實際任務,例如臉部辨識、語言翻譯以及推薦電影和商品。
再過十五年,人工智慧已經發展到可以「合成知識」(synthesize knowledge)的地步。生成式人工智慧,如ChatGPT和Stable Diffusion,可以創作詩歌、創作藝術品、診斷疾病、編寫總結報告和電腦程式碼,甚至可以設計與人類製造的積體電路相媲美的積體電路。
人工智慧成為所有人類事業的數位助手,面臨著巨大的機會。 ChatGPT是人工智慧如何使高效能運算的使用民主化、為社會中的每個人帶來好處的一個很好的例子。
所有這些奇妙的人工智慧應用都歸功於三個因素:高效機器學習演算法的創新、訓練神經網路的大量資料的可用性,以及透過半導體技術的進步實現節能計算的進步。儘管它無所不在,但對生成式人工智慧革命的最後貢獻卻沒有得到應有的認可。
在過去的三十年裡,人工智慧的重大里程碑都是由當時領先的半導體技術實現的,沒有它就不可能實現。 Deep Blue 採用0.6 微米和0.35 微米節點晶片製造技術的混合實現;贏得ImageNet 競賽的深度神經網路並開啟了當前機器學習時代的設備使了用40 奈米技術打造的晶片;AlphaGo 使用28 奈米技術征服了圍棋遊戲;ChatGPT 的初始版本是在採用5 奈米技術建構的電腦上進行訓練的。 ;ChatGPT 的最新版本由使用更先進的4 奈米技術的伺服器提供支援。所涉及的電腦系統的每一層,從軟體和演算法到架構、電路設計和設備技術,都充當人工智慧效能的乘數。但可以公平地說,基礎電晶體裝置技術推動了上面各層的進步。
如果人工智慧革命要以目前的速度繼續下去,它將需要半導體產業做出更多貢獻。十年內,它將需要一個1 兆晶體管的GPU,也就是說,GPU 的設備數量是當今典型設備數量的10 倍。
AI 模型大小的不斷增長,讓人工智慧訓練所需的運算和記憶體存取在過去五年中增加了幾個數量級。例如,訓練GPT-3需要相當於一整天每秒超過50 億次的運算操作(即5,000 petaflops /天),以及3 兆位元組(3 TB) 的記憶體容量。
新的生成式人工智慧應用程式所需的運算能力和記憶體存取都在持續快速成長。我們現在需要回答一個迫切的問題:半導體技術如何跟上腳步?
從整合元件到整合小晶片
自從集成電路發明以來,半導體技術一直致力於縮小特徵尺寸,以便我們可以將更多電晶體塞進縮圖大小的晶片中。如今,整合度已經上升了一個層次;我們正在超越2D 縮放進入3D 系統整合。我們現在正在將許多晶片組合成一個緊密整合、大規模互連的系統。這是半導體技術整合的典範轉移。
在人工智慧時代,系統的能力與系統中整合的電晶體數量成正比。主要限制之一是光刻晶片製造工具被設計用於製造不超過約800 平方毫米的IC,即所謂的光罩限制(reticle limit)。但我們現在可以將整合系統的尺寸擴展到光刻掩模版極限之外。透過將多個晶片連接到更大的中介層(一塊內建互連的矽片)上,我們可以整合一個系統,該系統包含的設備數量比單一晶片上可能包含的設備數量要多得多。例如,台積電的CoWoS(chip-on-wafer-on-substrate )技術就可以容納多達六個光罩版區域的計算晶片,以及十幾個高頻寬記憶體(HBM)晶片。
CoWoS是台積電的矽晶圓上晶片先進封裝技術,目前已在產品中得到應用。例如NVIDIA Ampere 和Hopper GPU。當中每一個都由一個GPU 晶片和六個高頻寬記憶體立方體組成,全部位於矽中介層上。計算GPU 晶片的尺寸大約是晶片製造工具目前允許的尺寸。 Ampere有540億個晶體管,Hopper有800億個。從7 奈米技術到更密集的4 奈米技術的轉變使得在基本相同的面積上封裝的電晶體數量增加了50%。 Ampere 和Hopper 是當今大型語言模型( LLM ) 訓練的主力。訓練ChatGPT 需要數萬個這樣的處理器。
HBM 是對AI 日益重要的另一個關鍵半導體技術的一個例子:透過將晶片堆疊在一起來整合系統的能力,我們在台積電稱之為SoIC (system-on-integrated-chips) 。 HBM 由控制邏輯IC頂部的一堆垂直互連的DRAM 晶片組成。它使用稱為矽通孔(TSV) 的垂直互連來讓訊號通過每個晶片和焊料凸點以形成記憶體晶片之間的連接。如今,高性能GPU廣泛使用HBM 。
展望未來,3D SoIC 技術可以為當今的傳統HBM 技術提供「無凸塊替代方案」(bumpless alternative),在堆疊晶片之間提供更密集的垂直互連。最近的進展表明,HBM 測試結構採用混合鍵合技術堆疊了12 層晶片,這種銅對銅連接的密度高於焊料凸塊所能提供的密度。此儲存系統在低溫下黏合在較大的基礎邏輯晶片之上,總厚度僅600 µm。
對於由大量運行大型人工智慧模型的晶片組成的高效能運算系統,高速有線通訊可能很快就會限制運算速度。如今,光學互連已被用於連接資料中心的伺服器機架。我們很快就會需要基於矽光子學的光學接口,並與GPU 和CPU 封裝在一起。這將允許擴大能源效率和麵積效率的頻寬,以實現直接的光學GPU 到GPU 通信,這樣數百台伺服器就可以充當具有統一記憶體的單一巨型GPU。
由於人工智慧應用的需求,矽光子將成為半導體產業最重要的使能技術之一。
邁向萬億電晶體GPU
如前所述,用於AI 訓練的典型GPU 晶片已經達到了標線區域極限(reticle field limit)。他們的電晶體數量約為1000億個。電晶體數量增加趨勢的持續將需要多個晶片透過2.5D 或3D 整合互連來執行計算。透過CoWoS 或SoIC 以及相關的先進封裝技術整合多個晶片,可以使每個系統的電晶體總數比壓縮到單一晶片中的電晶體總數大得多。如AMD MI 300A 就是採用這樣的技術製造出來的。
AMD MI300A 加速處理器單元不僅利用了CoWoS,還利用了台積電的3D 技術SoIC。 MI300A結合了GPU 和CPU內核,旨在處理最大的人工智慧工作負載。 GPU為AI執行密集的矩陣乘法運算,而CPU控制整個系統的運算,高頻寬記憶體(HBM)則統一為兩者服務。採用5 奈米技術建構的9 個運算晶片堆疊在4 個6 奈米技術基礎晶片之上,這些晶片專用於快取和I/O 流量。基礎晶片和HBM 位於矽中介層之上。處理器的計算部分由1500 億個電晶體組成。
我們預測,十年內,多晶片GPU 將擁有超過1 兆個電晶體。
我們需要在3D 堆疊中將所有這些小晶片連接在一起,但幸運的是,業界已經能夠快速縮小垂直互連的間距,從而增加連接密度。而且還有足夠的空間容納更多。我們認為互連密度沒有理由不能成長一個數量級,甚至更高。
GPU 的節能效能趨勢
那麼,所有這些創新的硬體技術如何提高系統的效能呢?
如果我們觀察一個稱為節能效能的指標的穩定改進,我們就可以看到伺服器GPU 中已經存在的趨勢。 EEP 是系統能源效率和速度(the energy efficiency and speed of a system)的綜合衡量標準。過去15 年來,半導體產業的能源效率表現每兩年就提高了三倍左右。我們相信這一趨勢將以歷史速度持續下去。它將受到多方面創新的推動,包括新材料、裝置和整合技術、極紫外線(EUV)微影、電路設計、系統架構設計以及所有這些技術元素的共同最佳化等。
特別是,EEP 的增加將透過我們在此討論的先進封裝技術來實現。此外,系統技術協同優化(STCO:system-technology co-optimization)等概念將變得越來越重要,其中GPU 的不同功能部分被分離到各自的小晶片上,並使用性能最佳和最經濟的技術來建構每個部分。
3D 積體電路的Mead-Conway時刻
1978年,加州理工學院教授Carver Mead和施樂帕洛阿爾托研究中心的Lynn Conway發明了積體電路的電腦輔助設計方法。他們使用一組設計規則來描述晶片縮放,以便工程師可以輕鬆設計超大規模整合(VLSI)電路,而無需了解太多製程技術。
3D 晶片設計也需要同樣的功能。如今,設計人員需要了解晶片設計、系統架構設計以及硬體和軟體最佳化。製造商需要了解晶片技術、3D IC技術和先進封裝技術。正如我們在1978 年所做的那樣,我們再次需要一種通用語言,以電子設計工具可以理解的方式描述這些技術。這種硬體描述語言使設計人員可以自由地進行3D IC 系統設計,而無需考慮底層技術。它正在路上:一種名為3Dblox 的開源標準已被當今大多數技術公司和電子設計自動化(EDA) 公司所接受。
隧道外的未來
在人工智慧時代,半導體技術是人工智慧新能力和應用的關鍵推動者。新的GPU 不再受過去的標準尺寸和外形尺寸的限制。新的半導體技術不再局限於在二維平面上縮小下一代電晶體。整合人工智慧系統可以由盡可能多的節能電晶體、用於專門計算工作負載的高效系統架構以及軟體和硬體之間的最佳化關係組成。
過去50 年來,半導體技術的發展就像走在隧道裡一樣。前面的路很清晰,因為有一條明確的道路。每個人都知道需要做什麼:縮小晶體管。
現在,我們已經到達隧道的盡頭。從這裡開始,半導體技術將變得更加難以發展。然而,在隧道之外,還有更多的可能性。我們不再受過去的束縛。