晶片散熱問題不斷擴大與增加可忽略功耗設計的製造商越來越少
在處理和儲存資料方面,功耗至關重要,而其中許多方面並不理想。與功耗相關的問題,尤其是熱量問題,如今主導著晶片和系統設計,而這些問題不斷擴大和增加。隨著電晶體密度的提高,這些微小的數位開關產生的熱量無法透過傳統方式消除。儘管這個問題看似可以控制,但這產生了一連串需要整個產業共同解決的新問題,包括EDA公司、製程設備製造商、晶圓廠、封裝廠、現場監控與分析服務商、材料供應商、研究團隊等。
在這些活動的背後,一個持續的焦點是將更多晶體管整合到固定區域內,以及與之密切相關且不斷加速的功耗洩漏戰鬥。 FinFET在16/14奈米技術中解決了漏電門問題,但僅在兩個節點之後問題再次出現。在3奈米製程中,引入了與眾不同的全包圍柵極場效應管(即奈米片)結構,這使得設計、計量、檢驗和測試變得更具挑戰性和成本。在2奈米/18埃技術中,為確保向電晶體傳輸足夠的功率並緩解佈線問題,會從晶片的正面翻轉到背面進行電源傳輸。在更高技術水準中,產業可能會再次改變電晶體結構,採用複合場效電晶體(CFET)。在這一短時間窗口中,眾多製程和結構變化不斷湧現,每個新節點都需要解決更多問題。
例如,隨著高密度晶片和封裝技術發展,瞬態熱梯度問題日益受到關注。這些熱梯度以不可預測的方式移動,有時迅速,有時緩慢,並且會隨著工作負載的變化而變化。在40奈米製程中,採用較厚的電介質、基板和較寬鬆的間距,這些問題僅被當作小麻煩。但在目前尖端的製程技術中,我們需要更認真地對待這些問題。
Cadence產品管理總監Melika Roshandell表示:「儘管基本漏電較之前的技術有所降低,但整體功耗卻更高。所以,熱量問題將更加嚴重,因為你在一個集成電路中集成了更多的晶體管,同時不斷提高效能。你希望採用越來越高的頻率,為此需要提高電壓和功耗。現在的總功耗比上一代更高,所以熱量問題將更嚴重。此外,在使用更小節點時,晶片面積也在減少。面積縮小和總功耗增加有時可能導致熱問題惡化,從而使晶片無法達到
圖1:運行中的3D-IC設計的熱力學耦合仿真
熱量正成為所有硬體工程師共同的噩夢,並引發一些難以解決和預先建模的惡性循環:
熱量加速了用於保護訊號的電介質薄膜(時間依賴型電介質擊穿,或稱為TDDB)的破裂,並增加了機械應力,從而導致翹曲。
熱量導致一系列問題:它加速電遷移和其他老化效應,可能會使資料路徑變窄。這進一步增加了電路阻力產生的熱量以及驅動訊號所需的能量,直至(如果可能的話)訊號重新路由。
熱量也會影響記憶體的運作速度,降低系統整體效能。
此外,熱量產生的雜訊對訊號完整性造成影響,而且雜訊可能是瞬時的,這使得分區更加困難。
所有這些因素都可能縮短晶片的壽命,甚至影響晶片的一部分。西門子EDA的模擬和混合訊號驗證解決方案的首席產品經理Pradeep Thiagarajan表示:「熱降解電晶體很容易導致晶片或IP損壞。幸運的是,大多數設備的自熱分析可以透過對每個MOS元件進行瞬態測量來評估局部加熱對設計的影響,然後加載溫度差數據並評估波形影響。現在,在面臨越來越高的數據傳輸速率要求的情況下,各個方面都需要創新。因此,更好地對所有熱界面材料進行建模,就能更有可能解決這些影響,並進行適當的設計調整,避免短期或長期的硬體故障。歸根結底,我們需要創新的熱解決方案,同時也必須進行正確的建模。”
功耗問題叢生
許多晶片製造商剛開始應對這些問題,因為大部分晶片並未使用最先進的製程開發。但隨著晶片越來越多地變成由晶片單元組成,所有內容都需要在非40nm或更高製程平面晶片開發的條件下進行特性描述和操作。
值得注意的是,提高電晶體密度,無論是在單一晶片或高級封裝中,未必是提升效能的最有效途徑。然而,它確實會提高功率密度,限制時脈頻率。因此,許多顯著進步並非與晶體管本身緊密相關。這些進步包括硬體-軟體協同設計、更快的物理層和互連、新型絕緣和電子遷移材料、具有較高精度和較短恢復時間的預取處理、稀疏演算法以及新的電源傳輸方案。
Arm公司高級首席CPU架構師Vincent Risson表示:「理解整個系統堆疊非常重要。當然,電腦對功率有重要貢獻,但係統的其他部分也同樣重要。這就是為什麼我們有不同級別的緩存,而且緩存的大小也不同。我們在上一代產品中加大了快取規模,因為擁有本地快取能使下游電源將運算視為本地運作。隨著我們擴展到3D,我們可以設想使用3D堆疊緩存,這將有助於於減少數據傳輸並提高效率。”
關鍵是在設計週期的每個環節提高效率,不僅限於硬體。儘管近幾十年來晶片產業一直關注硬體——軟體協同設計,但係統公司透過客製化微架構優先採用這種方法,同時,行動裝置也力求為了競爭優勢而大幅延長電池壽命。
Risson表示:「我們進行許多調整來充分提升效能,這是CPU致力於解決的重點問題。例如,我們持續改進所有預取引擎,以提高準確性並降低下游資料的流量。因此,我們正在維持更好覆蓋的同時,減少了互連上的流量。”
這只是難題的一部分,我們還需要解決更多面向的問題。例如,隨著時間的流逝,介電膜會逐漸損壞。這種情況會受到不同工作負載或工作條件的加速,尤其是在充滿晶片片製品的封裝內部。 Ansys電子、半導體和光學事業部的研究員及首席技術專家Norman Chang表示:「由於我們需要處理如此眾多的信號和運行在不同電壓下的多邊形網絡,時變介電擊穿(TDDB)成為一個問題。如果一個網路與另一個不同電壓的訊號網路相鄰,那麼介電材料就會感應到不同的電壓場。隨著時間的推移,會出現時變的介電擊穿現象。這是一個新問題,我們需要找到針對它的解決方案。”
不一致性問題
熱梯度也是一項挑戰,特別是當它們變化不定且在不同工作負載間有較大差異時。這個問題在2.5D設計中特別明顯,可能導致變形。而預期在未來幾年推出的3D-ICs中也存在同樣問題。在這兩種情況下,熱量可能會被困住,從而產生滾雪球效應。
圖2:2.5D 積體電路的熱力學與力學分析結果,展示了溫度梯度,包括在245°C時的翹曲情況
張表示:「在3D-IC中,功耗與溫度有很大的關係。當溫度升高時,漏電功耗將增加,熱梯度分佈成為3D-IC中多物理互動的核心。溫度會影響功耗,同時也會影響電阻。當溫度升高時,電阻也會增加,這也會影響介電常數。這會對訊號完整性和功率完整性產生影響,同時也會影響應力。在3D-IC中混合使用數位和類比時,類比部分對應力更敏感。你需要知道熱梯度和熱點的位置,以便將類比元件遠離熱點。如果你看到類比元件的熱循環,設備的老化速度會加快,你會開始看到電晶體失配,類比電路的效率相較於數位邏輯會迅速下降。”
這僅僅只是開始。新思科技(Synopsys)的產品管理資深總監Kenneth Larsen指出,將堆疊晶片中各個元素的位置安排錯誤可能會產生一些意想不到的問題,例如熱交叉幹擾,這也可能會降低整體效能。 「我們已從單片設計轉向基於碎片的設計,這使得各個設備之間的距離縮小了,它們可以互相影響。當一個設備堆疊在另一個設備上時,熱量如何散發出去?這是一個巨大的挑戰。對於3D-ICs,第一個問題是能否構建具有結構完整性的系統。同時,你還需關注其他的機械、熱和功耗問題——亟待解決的問題實在太多。”
在過去,處理熱量最簡單的方法是降低電壓。然而,這種方式已經變得不再有效,因為在極低電壓的狀態下,輕微的異常現象就可能導致問題。 Fraunhofer IIS自適應系統工程部門設計方法主管Roland Jancke表示:「對於低功耗技術(如臨界或亞臨界裝置)和高功耗裝置來說,雜訊是一個關鍵主題。這是一個難以理解的問題,因為在模擬過程中它通常不會出現,而是在現實世界中暴露出來。當噪音問題在現實中出現時,你需要了解並應對它。”
以交叉耦合為例,在設計階段,其在基底中產生的雜訊並不容易察覺。 Jancke表示:「我們在幾年前就開始使用基底模擬器來研究基底內的交叉耦合狀況。當時關注的重點是單一設備及其周圍的設備。然而,大家往往忽略了透過基底耦合的、距離較遠的輸入階段的交叉耦合問題。”
此類問題也會導致DRAM中出現問題,特別是在位元單元密度增加時,更容易受到雜訊影響。蘇黎世聯邦理工學院的電腦科學教授Onur Mutlu表示,「肯定存在熱噪聲。另外,當你訪問一個單元時,由於導線切換等原因導致的電幹擾會在結構中產生噪聲,或者是訪問晶體管。這種激活行為會產生噪聲,導致可靠性問題。我們稱之為單元間幹擾。行錘問題是一個例子,激活一行時會幹擾相鄰的行。RowPress是另一個例子,你長時間保持一行打開狀態,這會影響到相鄰的其他行。隨著我們減少每個單元的大小、縮小單元間距並提高密度,這種單元幹擾現象變得越來越普遍。這可能會導致無聲的資料損壞,而這可能正是現實場景中發生的情況。”
在耗電量方面,總是會出現一些意想不到的問題。 Movellus的功耗架構師Barry Pangrle表示:「不論何種時脈頻率,都希望在最低電壓下運行,以便用最少的能量。儘管我們可以建立一定程度的模型,但總是會遇到一些意外情況。可以對一塊晶片在不同環境下調整電壓和頻率來測試其在不同負載下的表現。可以利用這些數據,若要更為謹慎,可以適當降低設置,留出一定的餘量。但是人們不可能針對每個晶片都這樣做。那麼,你是否要對晶片進行分類,例如’屬於這種類別的晶片將在這個時脈和這個電壓下運作。’另外,粒度細節的選擇將取決於銷售該晶片的廠商。 」
其他問題
功耗也涉及資金方面的問題,包括從創建複雜設計所需的資源,到資料中心耗電量的多寡。電晶體密度越高,伺服器架啟動和降溫所需的能量就越多。在各種類型的人工智慧應用中,目標是最大限度地提高電晶體利用率,這反過來會消耗更多的能量,產生更多的熱量,同時需要更多的冷卻。
proteanTecs工程解決方案副總裁Noam Brousard表示:「這些應用需要大量電力,且需求呈指數級上升。高效的電力消耗最終將為資料中心帶來顯著的節省。這是最重要的。此外,我們還要專注於應用對環境的影響,並希望延長電子產品的使用壽命。”
圖3:功耗對晶片的影響
功耗相關的影響並不僅限於晶片本身。 Cadence的Roshandell表示:「在2.5D設計中,熱應力會導致翹曲,從而增加可能會破壞連接基板和PCB之間焊球的風險。一旦產生裂縫,就會出現短路,從而導致產品無法正常工作。因此,如何解決這個問題以及如何建模至關重要。必須在設計的最早階段提前考慮到這一點並採取相應措施。”
在3D-ICs中,問題變得更加複雜。再次強調在設計週期早期發現問題的重要性,但在3D-ICs中,有累加效應。 Ansys的張表示:「與SoC相比,動態開關功率在3D-ICs中真的非常棘手。我們必須儘早考慮物理架構,因為如果你在一個3D-IC中有15個片上晶片,那麼如何在這15個晶片之間分配功率以適應動態工作流程和時間維度呢?在不同的時刻,某個晶片上可能會有不同的工作負載,這可能會產生熱點。但如果頂部晶片有局部熱點,底部晶片也有局部熱點,當兩個局部熱點在某個時間點對齊時,這個熱點將變成全局熱點。如果其他晶片沒有切換,全局熱點可能比局部熱點高出10至15攝氏度。這讓3D-IC電路設計師完全措手不及,因為當你對3D-IC中的一個片上晶片進行模擬時,你可能無法以現實的工作流程對整個3D-IC進行模擬。”
問題在於,有許多相互依賴的因素,需要在某種背景下理解所有事物。是德科技設計和模擬產品組副總裁兼總經理Niels Faché表示:「你無法獨立優化這些設備。你可能會專注於熱量方面的目標,例如最高溫度、熱量散發,但你需要在機械應力的背景下理解這些問題。你必須建立這些獨立物理效應的模型。如果它們之間關係非常緊密,你需要以聯合模擬的形式進行。舉個例子,我們採用電熱模擬。所以,當觀察流經電晶體的電流時,它會對熱量產生影響。接著,熱量會影響電氣特性,進而改變電氣行為,你需要對這些相互作用建模。”
解決方案
對於與功耗相關的問題,沒有單一、全面的解決方案,但有許多能解決部分問題的方案。
解決問題的一個方法,也許是最簡單的方法,就是限制過度設計。 Rambus研究員和傑出發明家Steven Woo表示:「一切都始於專注於目標應用場景,以及定義解決這些場景所需的功能。試圖增加各種功能來滿足其他潛在市場和使用場景的需求可能很誘人,但這往往會導致晶片面積、功耗和複雜性的增加,從而影響晶片主要應用的性能。我們必須嚴格地審視所有功能,以極具挑戰性地判斷它們是否真正需要整合在晶片中。每一個新功能都會影響PPA(功耗、性能和麵積),因此始終關注目標市場和使用場景是第一步。”
這將對整體功耗產生顯著影響,特別是在AI領域。 Woo表示:「在AI中有許多因素需要考慮,尤其是對於邊緣設備。一些選擇包括晶片供電方式、散熱限制、是否需要支援訓練和/或推理、精度要求、晶片將部署的環境以及支援的數位格式等。支援大量功能集意味著更大的面積和功耗,以及在功能未使用時添加禁止的複雜性。由於資料傳輸影響效能並消耗大量能量預算,設計師需要充分了解在開發能夠最大限度地減少邊緣資料傳輸的架構時需要移動多少資料。”
另一種方法是對設計進行實際工作負載測試。新思科技的低功耗解決方案產品管理高級總監William Ruby表示:「有些客戶正在嘗試讓我們運行代表性的工作負載,因為我們不知道還有什麼不知道的事。」這就像是功耗覆蓋。 「我們認為什麼樣的情況是持續的最差情況?我們認為什麼樣的空閒負載是好的?」但他們不知道的是,新的軟體更新可能如何改變整個活動特徵。希望這種變化是漸進式的,而且他們已經為此做了預算,而不是悲觀地過於保守。但是如何預測韌體更新會發生什麼變化呢?
背面供電是另一個選擇,尤其是在最先進的節點上。 「在某種程度上,你會遇到收益遞減的問題,因為你需要處理從頂層到底層的材料,而頂層往往是供電和接地佈線,」Movellus的Pangrle表示,「如果你可以從背面實現供電,而不必穿過頂部的17個金屬層,那麼你就不需要經過很多層了。能夠繞過整個金屬堆疊並從背面接近晶體管,從而不必擔心穿過所有的過孔,這就像是製造業的魔法。”
在晶片和封裝內部使用感測器監測與功耗相關行為的變化是另一種方法。 proteanTecs的Brousard表示:「在現實應用中,有許多因素會降低效能,因此我們必須預設電壓保護帶。我們知道會有雜訊、過度的工作負載以及晶片的老化現象。所有這些因素迫使我們在最佳情況下應用大於VDDmin的電壓。”
此外,銅線可以用於傳導熱量至可以散熱的地方。新思科技的Larsen表示:「你可以採取簡單措施,例如優化堆疊晶片中的TSV佈局,也可以使用熱過孔。這非常複雜,但EDA領域一直在處理指數型問題。這是我們需要解決的。但是,當你想緩解某些問題時,你需要增加一些東西,雖然可能會影響到某些你期望得到的價值,但這是需要解決的。為了可靠性,你可能會增加冗餘,它可能是堆疊中的TSV或混合鍵結。”
結論
過去幾十年來,功耗一直是頭部晶片製造商的一個問題。智慧型手機會發出運行過熱的警告,並在冷卻下來之前關閉。基於同樣的原因,一個伺服器機架可能會將負載轉移到另一個機架。但晶片越來越多地被分解成各種組件並封裝在一起,隨著汽車等行業開始開發5奈米及以下的晶片,功耗問題將在更多領域出現。
架構、佈局佈線、訊號完整性、發熱、可靠性、可製造性和老化都與功耗緊密相關。隨著晶片產業繼續以獨特的方式以及不同的功能來應對獨特的市場,整個產業都需要學習如何處理或解決與功耗相關的影響。在過去,只有產量最高的晶片製造商才關心功耗,而現在變得不同的是可以忽略功耗設計的製造商越來越少。