一顆小小的半導體晶片 為何會產生那麼大的熱?
滾燙的手機,溫度過高而死機的電腦,這些問題時常困擾著廣大的消費者們,這背後的原因多半要歸咎於晶元過熱。 實際上晶元的發熱問題不僅造成了使用上的不便,也給生產者們帶來了巨大的技術成本,並限制了晶元性能的進一步的提升。 一顆小小的晶元為何會產生那麼大的熱量? 晶片的性能與發熱量有什麼關係? 工程師和科學家們又是用什麼方法來解決這一問題? 本文就將為你揭曉以上問題的答案。
一,功耗是晶元的夢魘
1965年,英特爾創始人之一的戈登·摩爾提出了經典的摩爾定律, “每18個月性能提升一倍,價格降低一半”,這條金科玉律就像一座路標,指引著行業發展的方向與節奏。 隨之而來的就是更小的晶體管,頻率更高的CPU,集成度更高的數位電路和更低的成本。 一代又一代的晶元和電子產品由專用走向普及,並逐漸滲透到了生活和工作的方方面面。
也正是如此,人們打開了數位世界的大門,看到了前所未見的光景。 但與此同時,晶元性能的躍升也逐漸遇到了瓶頸……
以柵極氧化層為例,在採用CMOS數位電路構造的CPU裡,它起到關鍵的絕緣作用。 柵極氧化層不僅要保證表面平整,不能有缺陷,為了符合半導體工藝標準,它的厚度也有一個理論的上限值。 當製程工藝由90nm向65nm過渡時,雖然晶元的集成度得到了提升,但是想要將小於2nm的這層柵極氧化層的厚度繼續降低,卻是十分困難。 這一技術難題讓英特爾這樣的晶元巨頭也為之頭疼。
隨著晶元的加工工藝精度進入原子級別,任何缺陷都被會被無限放大,比如在內部結構中僅僅缺少一個原子的厚度,就可能引起非常大的漏電流,這樣的漏電流不僅白白浪費了電能,更是引起晶元嚴重發熱的原因。 以早期的英特爾奔騰四CPU為例,有一半的功耗就是由於漏電被浪費了。
如今的CPU的單核速度可達到4GHz,算力的提升也帶來了功耗和發熱量的水漲船高,這時如果還照方抓藥式地採用傳統的風扇降溫,CPU內部的熱量就會迅速攀升甚至將其融化。 為了兼顧算力和功耗,工程師則採用了雙核晶元及多核的方法,走多核晶元路線以分擔單顆CPU的工作負荷間從而降低功耗和發熱。 除此以外,此後材料的革新,也能夠對功耗和散熱起到了非常大的優化作用。
二,神秘的測試
測試是檢驗真理的唯一標準。 就像學生時代的臨考前,老師們千叮嚀萬囑咐的一句話:做完題目別著急交卷,先檢查檢查,在半導體製造過程中更是如此,從晶元的製造到交付出貨期間,晶元測試已成為了不可或缺的環節。
在所有電子元器件的製造工藝裡面,存在著去偽存真的需要,為了實現試驗的過程,就需要各種試驗設備,這類設備就是所謂的ATE(Automatic Test Equipment)。
ATE是一種通過計算機控制,進行晶片、電路板和子系統等測試的設備,通過計算機程式設計取代人工勞動,自動化地完成測試序列。 ATE的應用場合涵蓋積體電路整個產業鏈,主要包括了晶元的設計驗證、晶圓製造相關的測試到封裝完成後的成品測試。
ATE市場的發展可以追溯到1960年代,早期的半導體測試設備發展並不完全是由獨立的設備商引導,而是由半導體製造公司主導。 仙童半導體(Fairchild)、德州儀器(TI)等製造企業生產ATE都是用於內部使用,而從1980年代起,ATE領域開始進行整合,2011年惠瑞捷(VERIGY)被收購后,形成了以泰瑞達(Teradyne)和愛德萬測試的雙寡頭格局。
回顧ATE的發展史,可以說泰瑞達是”第一個吃螃蟹的人”。 早在1960年,兩位麻省理工高材生在波士頓創立了泰瑞達公司。 如今,在波士頓總部的展示區域,依舊陳列著世界上第一台ATE設備D133,它是1961年推出的第一台二極管測試機,標誌著自動測試設備邁入全新紀元。 Teradyne(泰瑞達)的命名頗有意思,名字中的”Tera”取自10的12次方的前綴,”dyne”是力學的單位。 如此命名,也意味著這家公司將是一股不容小覷的巨大力量。
從70年代到80年代早期的十年間,積體電路經歷了由小規模到中規模再到大規模和超大規模的變遷。 這時計算機控制的測試系統成為主要的測試設備。 80年代中期,隨著門陣列器件的成功開發,對於測試方面要求達到了256管腳,速度高於40MHz。 進入到90年代,單片處理器單元(MPU)的問世也帶來了高速高管腳數的ATE。 隨後多媒體器件的出現使ATE變得更加複雜,需要同時具有數位電路、類比電路和記憶體電路的測試能力。
近年來,工藝節點不斷提升,晶元製程工藝不斷逼近物理極限,這些也帶來了更高的集成度。 隨之而來,整個晶元的功耗方案也要作出相對應的改變。
當下,先進製程晶元具有非常複雜的供電系統,測試成本不斷增加的同時,測試環節對產品良率的監控將會愈發重要,這樣的情況下,ATE該如何測試?
三,實際測試中的挑戰
應用處理器的測試機里有兩個非常重要的單元,其一是數位晶元測試的數位I/O,數位I/O承擔了相對複雜的工作,可以抓取失效;另一個就是電源,雖然DC電源看起來比較簡單,但在實際的大功率處理器的測試中,電源在起到非常重要的作用,因為它決定了測試品質,最終測試的良率也與電源的實際性能息息相關。
展開來看,應對不同的挑戰,不同測試環節的測試參數和應用場景稍有區別,就需要採取不同的解決方案。
對於複雜的供電問題,利用模組化的供電策略可以降低多相位複雜供電的困擾。 通過靈活地分配測試資源,將電源拆解成一個個小的電源模組,任意組合成小的單元模組給不同的電源軌供電,同時還可以利用冗餘的電源模組來幫助已經預設好的模組降低供電電源軌的穩壓壓力。
簡單舉例,一個需要30安培的VDD引腳,如果每個通道支援5安培的輸出能力,可以組合6個這樣的單元來供電,同時利用冗餘的通道組合單元與前面的6個單元組合在一起降低供電壓力。
此外,還可以利用軟體程式設計的方式設定上電次序、軟啟動等,以減少週邊供電電路。
對於大多數應用處理器來說,工作頻率與VDD一般呈現正相關性。 在前期的設計驗證中,廠商會嘗試尋找sweet point使得晶片在有限的功耗下表現出更好的性能,在實際的生產測試中,可能會直接地設定一個指定的VDD,看其能否在這個特定的VDD下達到預期的頻率。
然而,在實際的測試中,沒有一款測試機是完美的。 實際操作中,晶元會經常性產生誤差,一種方式是嘗試程式設計稍高於晶元預設值的電壓,由於考慮晶元的誤差及所有的損耗,需要保證晶元引腳上的電壓依然高於預期值。 通過這種測試方法,即使儀錶波動到最低的電壓情況下,品質好的器件仍然可以pass,從而獲得更高的良率。
另一種方式,直接將測試儀錶的輸出程式設計等於預期值,由於實際上一些測試機並不能達到良好的精準度,在一些情況下略低於輸出,導致這部分的晶元實際測試電壓低於預期值。
這兩種方式會造成不同的負面效果。 在第一種的情況下,VDD的預期值需要制定得更高一些,這樣的話實際的電壓會高於預期值,實際測試中的熱損耗也會更大,在測試中就需要低速的向量幫助降溫。
第二種情況下,雖然實際出貨的產品都能夠pass預期值,但是對於一些誤差比較大的機器,會造成額外的良率損失。 對於7nm、5nm的先進製程產品來說,良率是極其重要的一個因素,由於先進製程產品尤其是晶圓面積較大時的良率本身非常低,在此基礎上如果又額外損失一部分良率,這對於器件製造成本是難以接受的。
面對種種挑戰,我們該如何測試? 測試機應該具備怎樣的特性滿足以上的諸多挑戰需求呢?
四,不同測試挑戰的對症下藥
“Millivolts Matter”,每一個毫伏的精度都非常重要。 越來越低的核心電壓對電源的輸出精度,以及動態回應提出了越來越高的要求。 泰瑞達一直把電源儀錶的輸出電壓能力作為儀錶設計最重要的參數之一,這也是泰瑞達區分於眾多ATE廠商的特徵之一。
在實際測試過程中電源的供電不是完全平坦的,實際的電源功耗與實際工況有很大關係,甚至會導致晶元丟失狀態,從而導致器件失效。 這樣的問題既難預測又很難排查。
通過不斷改變輸出的VDD與Scan Shift頻率來查看所有測試向量的輸出結果,當VDD越低頻率越高時,越容易發生失效。 在實際的Shmoo測試案例中,泰瑞達的UltraFLEXplus具有更穩定的供電電源,這意味著可獲得更高的邊界良率,使得晶元更加貼近於真實的本徵。 這樣一來,在實際產品中,我們對於晶元的實際工況便能夠得到一個更加準確的推斷,知道哪些情況是可以工作的,哪些情況是不能工作。 總的來說,更好更穩定電源不僅能夠提升良率,還能夠認識晶元在真正工況下的工作狀態。
目前,很多晶元需要非常大的電流供電能力,輸出一個非常大的電流能力對測試機來說已經不是一個難題了,很多測試機已經能夠輕鬆供給1000A的輸出能力。 然而多工位測試的時候每個晶元的單個電源軌上電都要達到800 -1000A,測試機雖然能夠滿足1000A的靜態供電,它是否能夠滿足0A到1000A的單步上電過程,成為了一個難題。 在多工位測試的時候,泰瑞達所提供的解決方案就能夠滿足單步上電的大電源供給。
除了關注電源靜態、動態的部分,在電源的週邊電路設計上,socket、探針卡、loadboard等與電源的性能也是息息相關。
測試儀錶的動態回應對直流電源的表現影響非常大,優秀的電源方案可以説明減少週邊電源電路的複雜度。 傳統的ATE解決方案首先需要板卡提供能量供給,大多供給從直流部分到100kHz的頻域範圍,針對低頻、中頻、高頻等其他頻段也需要增加不一樣的週邊電路,致使整體電路比較複雜。
泰瑞達側重於簡化電路設計,通過ATE本身就能提供從低頻到中頻的輸出能力,不需要增加額外的週邊電路,盡可能減少電容數量。 在實際操作中,只需加入較少種類的低ESR/ESL陶瓷電容來幫助改變高頻特性,令單個型號就可滿足輸出的動態性能。
這樣的好處在於:1)降低電容值以加速恢復時間;2)電容少意味著充放電時間更快,也就意味著充放電的能量會變少,這樣可以加速測試時間並降低socket被能量損傷的概率;3)降低電容使用種類,在使用單一電容的情況下,可以降低電路發生諧振、慢恢復等的可能性。
另一個比較大的挑戰在於測試單元,大功率的先進製程晶片功率耗散非常大,多數輸出的能量最終都會轉化為熱量。 我們在測試時要避免晶元無限制地升溫導致晶元”被燒壞”,而是希望在測試參數的時候做到可重複、可重現,使晶元維持在穩定的情況下測試,保證所有收取數據的一致性。 最直接的辦法可採用在測試單元的時候使用ATC(Automatic Temperature Control),常見的辦法有三種:方案一)DUT Power Monitor;方案二)Die Temperature Monitor;方案三)Package Temperature Monitor。
三種方式各有利弊,在時間上的效益也不同(如上圖),泰瑞達更加傾向於使用方案一,其優點在於可以更早預判晶元接下來可能發生的狀態並提前介入;其次,泰瑞達測試機原身也能夠支援這種方式,輸出每一個DPS當下負載的百分比以及輸出電壓的大小。
在很多實際量產的案例中,泰瑞達已經使用了這種監控方式,對比方案二、三可以更早預知晶元的實際工況。
晶片功率不斷加大的情況下電路變得更加複雜,我們希望在測試的過程中所有的socket、探針卡、loadboard等都能得到比較好的監控,保證在短路、接觸不良等異常情況發生時不會因此而損壞測試部件。
為避免這種情況發生,泰瑞達在設計大部分測試板卡的過程中會添加即時的報警機制,一旦任何異常發生,能夠在不影響其他設備生產和中斷生產的情況下,通過測試機作出實時警告,提前篩查避免異常情況的出現,減少測試漏測、品質事故等情況的發生。
總結
半導體測試就是通過測量半導體的輸出回應、預期輸出、並進行比較以確定或評估積體電路功能和性能的過程,貫穿設計、製造、封裝、應用全過程。 隨著半導體製造工藝要求的提升,測試環節在半導體製造過程中的地位隨之不斷提升。
半導體測試機的技術核心在於功能集成、精度與速度、降低成本與可擴充性。 在泰瑞達看來,測試解決方案要有足夠好的靜態精度及穩壓能力,同時在邊界情況下獲得更好的魯棒性來説明降低失效的概率;盡可能簡化週邊電路的設計,降低運營方面的損失,側面降低測試成本;最後加入警報機制來提前預判,避免發生異常情況。