台積電新封裝技術能將芯片擴大三倍
作為突破最大可製造芯片尺寸界限的努力的一部分,台積電正在研究其新的Chip-On-Wafer-On-Substrate-L (CoWoS-L) 封裝技術, 該技術將使其能夠構建更大的超級載體中介層。針對2025 年的時間跨度,下一代TSMC 的CoWoS 技術將使中介層達到TSMC 最大reticle的六倍,高於其當前中介層的3.3 倍。
這種強大的系統級封裝(SiP) 旨在供對性能要求很高的數據中心和HPC 芯片使用,事實證明,這個利基市場願意支付高額溢價,以便能夠在單個封裝上放置多個高性能小芯片。
“我們目前正在開發採用Super Carrier 中介層技術的6 倍光罩尺寸的CoWoS-L 技術,”負責代工廠高性能計算業務部門的台積電業務發展總監Yujun Li 在公司2023 年歐洲技術研討會上說。.
人工智能(AI) 和高性能計算(HPC) 等全球大趨勢創造了對看似無限的計算能力的需求,這就是為什麼像AMD、英特爾和NVIDIA 這樣的公司正在構建極其複雜的處理器來處理這些AI 和HPC 應用程序.提高處理器計算能力的方法之一是增加晶體管數量。如今,為了高效地做到這一點,公司使用了多塊小芯片設計。英特爾令人印象深刻的47 tiles Ponte Vecchio GPU 就是此類設計的一個很好的例子;但台積電的CoWoS-L 封裝技術將使代工廠能夠為更龐大的處理器製造超級載體中介層。
理論上的EUV reticle限制為858mm²(26 毫米x 33 毫米),因此這些掩模中的六個將實現5148 毫米2的SiP 。如此大的中介層不僅可以為多個大型計算小芯片提供空間,還可以為12 堆棧HBM3 (或HBM4)內存留出足夠的空間,這意味著12288 位內存接口帶寬高達9.8 TB/秒。
“Super Carrier 中介層在中介層的正面和背面具有多個RDL 層,以提高良率和可製造性,”Li 解釋道。“我們還可以在解釋器中集成各種無源組件以提高性能。這種六reticle大小的CoWoS-L 將於2025 年驗證”
構建5148 mm² SiP 是一項極其艱鉅的任務,我們只能想知道它們將花費多少以及它們的開發人員將為此收取多少費用。目前NVIDIA 的H100 加速器,其封裝跨越一個中介層多個光罩大小,成本約為30,000 美元。因此,更大、更強大的芯片可能會進一步推高價格。
但是支付大型處理器的成本並不是數據中心運營商需要進行的唯一巨額投資。5148 mm 2 SiP 可以容納的活性矽數量幾乎肯定會導致生產一些迄今為止最耗電的HPC 芯片——這些芯片也需要同樣強大的液體冷卻來匹配。為此,台積電透露,它一直在測試片上液體冷卻技術,並表示它已經設法冷卻功率水平高達2.6 kW 的矽封裝。因此,台積電確實有一些想法來處理這些極端芯片的冷卻需求,即使只是以集成更多尖端技術為代價。
01 台積電的最強武器
說到AI伺服器的能耗問題,不少半導體業者的直覺反應,就是靠摩爾定律解決不就好了?例如,台積剛量產的3納米製程,能耗可以較前一代5納米降三成到三成五。但有趣的是,英偉達最新、最高階的GPU都不是當下台積的最先進製程。
“已經好幾代都是這樣,”一位資深半導體分析師也觀察到這現象。
“黃仁勳算盤打得很精,”該分析師說,主要是近年先進製程愈來愈貴,得到的效能提升卻愈來愈小,英偉達寧可等個兩年,待製程良率穩定、價格下跌再進場,並選擇將資源投在軟體優化、新架構上,“效果可能好上10倍,可說是本小利多,”該分析師坦言。
英偉達能如此好整以暇,一大原因也是其寡占AI市場,沒有導入昂貴新製程的迫切理由。這對於台積的未來可能是個警訊。
首先,去年台積高速運算業務佔營收比重達41%,首度超越智能型手機的39%。
業界都將之視為典範轉移。智能型手機市場已成熟,以AI為首的高速運算,將成為未來台積的成長火車頭。
但英偉達對最先進製程的不積極態度,讓上述說法,顯得有點一廂情願。
然而,一位英偉達供應商高層告訴《天下》,英偉達GPU之一H100的技術重點,其實是在旁邊整顆用台積的CoWoS技術,與6顆昂貴的第三代高頻記憶體(HBM3)連接起來的架構,每一顆記憶體可擴充到80GB、每秒3TB的超高速資料傳輸,讓美國科技媒體驚呼“怪物”。
這是“後摩爾時代”的技術特徵。英偉達競爭者超微的MI300,也有類似架構。與此同時,據台灣《電子時報》,近期業界傳出,微軟正在接觸台積電供應鍊及旗下設計公司,希望將台積電代工廠的CoWoS封裝技術用於其自研AI芯片。
02 台積電CoWoS:10年進化5代的封裝技術
正如之前所說,台積電根據中介層(interposer)的不同,將其“CoWoS”封裝技術分為三種類型。一種是“CoWoS_S(Silicon Interposer)”,它使用矽(Si)襯底作為中介層。這種類型是2011年開發的第一個“CoWoS”技術,在過去,“CoWoS”是指以矽基板作為中介層的先進封裝技術。
另一種是“CoWoS_R(RDL Interposer)”,它使用重新佈線層(RDL)作為中介層。
第三個是“CoWoS_L(Local Silicon Interconnect and RDL Interposer)”,它使用小芯片(chiplet)和RDL作為中介層。請注意,“本地矽互連”通常被台積電縮寫為“LSI”。
“CoWoS_S”(傳統的“CoWoS”)的橫截面結構示例。是所謂2.5D封裝的代表。通過在作為中介層的矽基板上形成高密度佈線和矽通孔(TSV),可以在矽芯片之間緊密放置並傳輸高速信號
03 繼續擴大中介層面積、晶體管數量和內存容量
“CoWoS_S”(原“CoWoS”)於2011年開發。這被稱為“第一代(Gen-1)”CoWoS封裝技術首先是被Xilinx 的高端FPGA 採用。其中,Si 中介層的最大尺寸為775mm 2 (25 mm x 31 mm)。它接近一個掩模版的曝光尺寸(26mm x 33mm)(在ArF 浸入式光刻機的情況下)。FPGA 芯片製造技術是28 納米CMOS 工藝。採用該技術的賽靈思高端FPGA“7V2000T”在“CoWoS_S”中配備了四個FPGA邏輯芯片。
在2014年開發的第二代“CoWoS_S”中,矽中介層擴大到1150mm 2。接近1287mm 2,這是1.5分劃板的曝光面積。2015年被賽靈思高端FPGA“XCVU440”採用。它配備了三個FPGA 邏輯芯片。FPGA 芯片製造技術是20 納米CMOS 工藝。
在2016年開發的第三代“CoWoS_S”中,雖然Si中介層的尺寸沒有太大變化,但高速DRAM模塊“HBM”和邏輯首次混合使用。2016年率先被NVIDIA的高端GPU“GP100”採用。在這種封裝下,GPU 芯片和“HBM2”混合在一起。HBM2 是矽片疊層模塊(4 個DRAM 芯片和1 個基片(底部)通過TSV 連接),“GP100”配備了4 個16GB(128Gbit的HBM2 模塊和大容量的DRAM和GPU高速連接。
在2019 年開發的第4代“CoWoS_S”中,Si 中介層的尺寸已擴大到相當於兩個光罩的曝光面積——大約1700 mm 2。這個巨大的中介層裝有一個大型邏輯芯片和6 個HBM2。由於一個HBM2存儲的容量增加到8GB(64Gbit),所以總容量為48GB(384Gbit),是第三代容量的3倍。
“CoWoS_S”(傳統的“CoWoS”)的演變。2011年第1代到2021年第5代的改進。
04 要集成的邏輯和內存總是很大
在上文中我們談到,高性能封裝技術“CoWoS(Chip on Wafer on Substrate)”從首次開發起約10年的時間內推出了多款衍生產品。接下來,讓我們還回顧一下“CoWoS”技術自2011 年首次開發以來的發展歷程。
最初的“CoWoS”技術使用矽(Si)襯底作為中間襯底(中介層)。目前,台積電稱這種類型為“CoWoS_S(Silicon Interposer)”。正如第一部分所解釋的,從2011年的第一代到2019年的第四代,CoWoS技術不斷擴大中介層面積、晶體管數量和內存容量。
注:“CoWoS_S”(傳統的“CoWoS”)的演變。從2011年的第一代升級到2021年的第五代。2023年研發下一代“CoWoS_S”
中介層原本很大,但現在變得更大了。第一代的面積相當於一個標線(775mm 2),第二代和第三代的面積相當於1.5個標線(1150mm 2和1170mm 2)。在第4 代中,它變得更大,達到了相當於兩個標線(1700mm 2 ) 的面積。
最初,安装在中介层上的硅芯片是多个逻辑芯片。从第3代开始,它支持逻辑和内存的混合加载。它现在配备了一个逻辑 (SoC) 芯片和一组高速DRAM模块“HBM(高带宽内存)”的层压芯片。具体来说,将一个SoC芯片和四个 HBM(4GBx4,总共16GB)安装在一起。到了第4代,SoC die的面积(集成规模)扩大了,要混合的 HBM 数量增加到了6个。通过将一个 HBM 的存储容量增加一倍,HBM 的总容量已显著增加到第三代的三倍(48GB)。
05 “CoWoS_S”的改進助推HPC系統演進
台積電在今年(2021年)開發的第5代“CoWoS_S”將Si中介層進一步擴大到2500mm 2,這相當於3個光罩,是第3代的兩倍大,安裝了8個HBM。Logic 的矽芯片再次成為小芯片,在總面積為1200mm 2的地方放置了兩個迷你芯片。可安裝的HBM 規格為“HBM2E”(HBM 2nd generation 的增強版)。
通過使銅(Cu) 佈線比以前更厚,Si 中介層的重新佈線層(RDL) 將薄層電阻降低到不到一半。用5 層銅線連接矽芯片。台積電還重新設計了TSV,以減少由於矽穿透孔(TSV) 引起的高頻損耗。重新設計後,2GHz至14GHz高頻範圍內的插入損耗(S21)從傳統的0.1dB以上降低到0.05dB以上。此外,通過將具有深槽的高容量電容器“eDTC(嵌入式深溝槽電容器)”裝入Si 中介層,台積電進一步穩定了電源系統。eDTC 的電容密度為300nF/mm 2。在100MHz至2GHz的頻率範圍內,配電網絡(PDN) 的阻抗已通過eDTC降低到35%以下。
06 支持第5代“CoWoS_S”(傳統“CoWoS”)的基本技術
下一代(第6代)“CoWoS_S”計劃於2023年開發。Si中介層的尺寸更大,有四個掩模版。通過簡單的計算,它達到約3400mm 2 (約58.6mm見方)。邏輯部分配備了兩個或更多帶有小芯片的迷你芯片,內存部分配備了12個HBM。相應的HBM規範似乎是“HBM3”。
“CoWoS_S”發展路線圖
07 矽中介層將處理器處理性能提升2.5 倍
高性能計算(HPC)的封裝技術“CoWoS(Chip on Wafer on Substrate)”首次出現在10年前(2011年)。正如前文所說,在過去十年裡,我們不斷擴大集成規模,提升每一代的性能,並為“CoWoS”開發了衍生產品,目前主流產品的名稱已更改為“CoWoS_S”。“_S”表示將矽(Si)基板用於中間基板(中介層)。
除了高密度連接之外,矽中介層在緩解封裝基板(樹脂基板)和矽芯片(邏輯芯片、存儲器芯片等)之間發生的熱變形方面也扮演著重要的角色。因為熱失真會導致電路操作延遲。
在一個活動上,台積電展示了倒裝芯片連接封裝和CoWoS 封裝與7nm代CMOS 邏輯的CPI(每條指令的時鐘數)的比較結果。如果在倒裝芯片連接到封裝板(樹脂板)的700 mm 2 SoC(片上系統)芯片上將CPI 設置為“1”,則採用CoWoS_S 技術封裝的840mm 2 SoC 芯片的CPI短至“0.4”。成為。這意味著指令處理性能提高了2.5 倍。
注:將CPI(每條指令的時鐘數)與“CoWoS_S”和倒裝芯片進行比較。由於Si中介層減輕了熱變形,“CoWoS_S”的CPI(相對值)為0.4,比倒裝芯片的CPI短。如果時鐘頻率相同,指令處理性能將提高2.5倍
08 混合寬帶存儲器“HBM”和SoC的“CoWoS_S”的標準化配置和佈局
“CoWoS_S”的特點是混合了寬帶內存模塊“HBM(High Bandwidth Memory)”和大規模SoC的高性能子系統。通過Si中介層連接HBM和SoC,實現了寬帶內存訪問。
“HBM”的規格對於每一代都有共同的標準。產品的傳播始於第二代“HBM2”。下一代是HBM2的增強版“HBM2E”。下一代是“HBM3”,容量越來越大,帶寬越來越寬。
此外,“CoWoS_S”中安裝的HBM數量將增加,Si中介層面積將增加,SoC製造技術將小型化。SoC 的形式將從單芯片變為小芯片,再到SoIC(集成芯片系統)。構成“CoWoS_S”的元素技術將會增加並變得更加複雜。
寬帶內存模組“HBM”(橫軸)的演進以及對應“CoWoS_S”(縱軸)的功耗、速度、內存帶的轉變
因此,台積電提供具有標準化配置和佈局的“CoWoS_S STAR(標準架構)”,以便作為客戶的半導體供應商可以快速開發採用“CoWoS_S”的子系統。可使用對應於HBM2 的“STAR 1.0”和對應於HBM2E 的“STAR 2.0”。
將SoC和HBM混合的“CoWoS_S”的配置標準化的“CoWoS_S STAR”概述
標準化的是矽中介層的最大尺寸、HBM 的數量和矽芯片的佈局。客戶可以從三種基本規格中進行選擇:最大配置、中間配置和最小配置。
最大配置是矽中介層,其曝光面積相當於掩模版的兩倍。SoC(或ASIC)佈置在中央,三個HBM分別放置在其左右兩側。
中間配置的曝光面積相當於矽中介層最大尺寸的掩模版的1.5 倍。SoC佈局在中央,左右兩側分別放置了兩個HBM。
最小配置是矽中介層的最大尺寸,即相當於光罩1.3倍的曝光面積。兩個HBM 沿SoC(或ASIC)的側面放置。
HBM2兼容“STAR 1.0”和HBM2E兼容“STAR 2.0”從最大配置到最小配置的標準規格相同。似乎他們有意識地在“STAR 2.0”中重用“STAR 1.0”的開發資源。
09 台積電先進製程和封裝的更多細節
台積電院士兼副總裁LC Lu 在之前的一個短短26 分鐘演講內用數十張幻燈片談到了實現系統創新。
台積電是全球排名第一的半導體代工企業,他們的開放式創新平台(OIP) 活動很受歡迎,參加人數也很多,因為所提供的工藝技術和IP 對許多半導體設計領域都非常有吸引力。台積電技術路線圖顯示了到2025 年的FinFET 和Nanosheet 計劃的時間表。
從N3 開始,出現了一種名為FinFlex的新產品,它使用設計技術協同優化(DTCO),有望為節能和高性能等細分市場改進功率、性能和麵積(PPA)。借助FinFlex 方法,設計人員可以根據其設計目標從三種晶體管配置中進行選擇:
3-2 fin blocks,用於高性能
2-2 fin,高效性能
2-1 fin,功率最低,密度最佳
工藝節點N16 到N3 中使用的fin選擇的歷史如下所示:
EDA 供應商Synopsys、Cadence、Siemens EDA 和ANSYS 已經更新了他們的工具以支持FinFlex,並且在單個SoC 中,您甚至可以混合使用fin block選項。沿著時序關鍵路徑,您可以使用高fin單元,而非關鍵路徑單元可以是低fin。作為進程縮放優勢的示例,Lu 展示了一個ARM Cortex-A72 CPU,在N7 中實現,具有2 個fin,N5 具有2 個fin,最後是N3E 具有2-1 個fin:
N3E 的IP 單元來自多家供應商:TSMC、Synopsys、Silicon Creations、Analog Bits、eMemory、Cadence、Alphawave、GUC、Credo。IP 準備狀態分為三種狀態:矽報告準備就緒、矽前設計套件準備就緒和開發中。
在TSMC,他們的模擬IP 使用結構化程度更高的規則佈局,這會產生更高的產量,並讓EDA 工具自動化模擬流程以提高生產力。TSMC 模擬單元具有均勻的多晶矽和氧化物密度,有助於提高良率。他們的模擬遷移流程、自動晶體管大小調整和匹配驅動的佈局佈線支持使用Cadence 和Synopsys 工具實現設計流程自動化。
模擬單元可以通過以下步驟進行移植:原理圖移植、電路優化、自動佈局和自動佈線。例如,使用他們的模擬遷移流程將VCO 單元從N4 遷移到N3E 需要20 天,而手動方法需要50 天,快了大約2.5 倍。
台積電需要考慮三種類型的封裝,分別是二維封裝(InFO_oS、InFO_PoP)2.5D封裝(CoWoS)和3D封裝(SoIC和InFO-3D)
3DFabric 中有八種包裝選擇:
最近使用SoIC 封裝的一個例子是AMD EPYC 處理器,這是一種數據中心CPU,它的互連密度比2D 封裝提高了200 倍,比傳統3D 堆疊提高了15 倍,CPU 性能提高了50-80%。
3D IC 設計複雜性通過3Dblox 解決,這是一種使用通用語言實現EDA 工具互操作性的方法,涵蓋物理架構和邏輯連接。四大EDA 供應商(Synopsys、Cadence、Siemens、Ansys)通過完成一系列五個測試用例,為3Dblox 方法準備了工具:CoWoS-S、InFO-3D、SoIC、CoWoS-L 1、CoWoS-L 2。
台積電通過與以下領域的供應商合作創建了3DFabric 聯盟:IP、EDA、設計中心聯盟(DCA)、雲、價值鏈聯盟(VCA)、內存、OSAT、基板、測試。對於內存集成,台積電與美光、三星內存和SK 海力士合作,以實現CoWoS 和HBM 集成。EDA測試廠商包括:Cadence、西門子EDA和Synopsys。IC測試供應商包括:Advantest和Teradyne。
AMD、AWS 和NVIDIA 等半導體設計公司正在使用3DFabric 聯盟,隨著2D、2.5D 和3D 封裝的使用吸引了更多的產品創意,這個數字只會隨著時間的推移而增加。台積電擁有世界一流的DTCO工程團隊,國際競爭足以讓他們不斷創新新業務。數字、模擬和汽車細分市場將受益於台積電在FinFlex 上宣布的技術路線圖選擇。3D 芯片設計得到3DFabric 聯盟中聚集的團隊合作的支持。