AMD公佈瘋狂晶片提效計劃用能源效率挑戰英偉達會成功嗎?
近日,在比利時舉辦的ITF World 2024大會上,AMD董事長兼CEO蘇姿豐獲得了IMEC創新大獎,以此表彰其在行業創新與領導方面的成就,大家熟悉的戈登·摩爾(提出著名的摩爾定律)和比爾蓋茲都曾經獲得該大獎。
而在獲獎後的演講中,蘇姿豐透露了AMD未來三年的計劃,一個充滿野心的計劃:AMD正在努力實現2025年將計算能源效率提高到2020年的30倍的計劃,而在這個計劃之後,還有2027年將能源效率提高到100倍(相對於2020年)的目標。
圖源:AMD
計算能效,簡單來說就是指計算機在執行計算任務時,利用能源的有效程度,雖然在各種算力、核心數等性能參數面前,計算能效看起來不太起眼,實質上卻是核心性能、功耗管理、製程製程等技術的體現。
更高的運算能效,能夠讓電腦系統在運作時有著更高的效率,早在2014年,AMD就曾經設定過一個名為「25×20」的計劃,希望用6年時間將AMD的處理器、顯示卡等產品的能源效率提高25倍。
這個計畫的結果,就是我們現在所熟知的Zen架構和RDNA架構,憑藉著兩個架構的出色表現,AMD在2020年不僅完成了既定的目標,還超額做到了31.77倍的能源效率提升。
AMD為何一直將運算能源效率提升作為核心目標之一?首先,我們從目前的AI運算需求出發,看看計算能效提升會帶來什麼?
狂奔的超級計算中心
眾所周知,AI已經成為當前半導體業界最核心、最龐大的需求,而這個需求正驅動著半導體戰車的車輪滾滾向前。前段時間,身為AI時代的領航者,半導體公司英偉達的市值就一度達到2.62兆美元,甚至超過了德國所有上市公司的市值總和。
讓英偉達市值暴漲的唯一原因,就是其在AI計算硬體領域的統治級實力,目前全球最頂尖的專業計算卡均出自英偉達,除了主流的H100、H200等晶片外,英偉達前段時間又發布了GB100和GB200,光是單一晶片的算力就相當於以前的一台超級電腦。
當然,強大的算力背後並不是沒有代價的,H100的TDP高達700W,而最新的GB200的TDP更是高達2700W。而英偉達提供的官方方案中,單一GB200 NVL72伺服器就可以搭載最高36個GB200晶片,光是晶片本身的功耗就最高可達97200W,並且不包括配套的其他硬體功耗。
這只是開始,一個超級運算中心往往由多個伺服器單元組合而成,亞馬遜先前就公佈了一項計劃,預計採購2萬個GB200用來組建一個全新的伺服器叢集。而走在AI研究最前線的微軟和OpenAI,前段時間更是公佈了一個雄心勃勃的計畫——星際之門。
據悉,該計畫共分為五個階段,目的是建造一個人類史上最大的超級運算中心,預計整個計畫的投資將達到1,150億美元,建成後將需要數十億瓦的電力支援。這座’星際之門’建成後,僅以耗電量算就足以在全球各大城市中排名前20,更何況它還只是眾多計算中心的一員而已。
實際上,早在去年開始,就有多份報告指出計算中心的耗電量正在激增,並且一度導緻美國部分城市出現電力供應不足的問題。從能源角度來說,一座發電廠從選址到建成運行,往往需要數年的時間,如果遇到環保組織的抗議,可能還會拖延更久。
在能源問題短時間內無法解決的情況下,提高計算能源效率就是唯一的方法,透過更有效率地利用每瓦時電力來維持更大規模的AI模型訓練。實際上,有人認為OpenAI的ChatGPT-5進展緩慢,很大程度就是受限於算力規模無法大幅提升。
蘇姿豐在演講中也提到,提高運算能源效率可以更好地解決能源與算力之間的矛盾,並且讓超級運算中心可以部署到更多的地方。在一些AI企業的構想中,未來每個城市都應該擁有自己的超級AI中心,負責處理智慧駕駛、城市安全等各方面的AI需求。
想要達成這個目標,同時不顯著增加城市的能源負擔,更高運算能源效率的顯示卡就是唯一的解決方案。而且,計算能效也直接關係到AI運算的成本,只有將AI運算的成本降到更低,大面積普及AI才可能成為現實。
AMD的瘋狂計劃
在英偉達的刺激下,作為在GPU領域唯一能與英偉達抗衡的企業,AMD一直在加速推進旗下AI晶片的研發與上市進度,並先後發布了MI300、V80等多款專業運算卡。
據報道,為了能夠加速AI晶片的進度,蘇姿豐對GPU團隊進行重組,抽調大量人員支援AI晶片的研發,以至於下一代的AMD消費級顯示卡發布計畫受到嚴重影響,例如取消原定的旗艦產品發布計劃,僅保留中階顯示卡的發布計劃等。
在集中科研力量後,AMD目前的進展速度飛快,最新的MI300X在性能上已經超過英偉達的H100,大多42 petaFLOPs,並且擁有高達192GB的顯存,功耗卻與H100相當,僅為750W。
憑藉著優異的運算能源效率,MI300X成功引起了市場的關注,微軟、OpenAI、亞馬遜等科技巨頭都提交了採購需求,讓AMD在運算領域的晶片出貨量暴增。根據相關機構預測,2024年AMD的AI晶片出貨量可能達到英偉達出貨量的10%,並在明年成長至30%。
根據蘇姿豐介紹,為了能提升晶片的運算能效,AMD研發了多項新的技術,例如2.5D/3D混合封裝技術。利用這項技術,AMD可以在封裝面積不變的前提下給晶片塞入更多的電晶體和內存,降低晶片與記憶體交換資料的消耗,有效提升每瓦時的運算效能。
此外,AMD也將改進晶片架構,推出能源效率更高的新一代架構,預計最快將於2025年發布,並實現25×30(2025年運算能源效率提升30倍)的目標。不過,想要達成27×100(2027年運算能效提升100倍)的目標,還需要在許多領域做出提升,僅靠製程製程升級和架構升級恐怕還不太夠。
不得不說,AMD的這個計劃非常瘋狂,一旦成功,那麼AMD將有望再次與英偉達並肩而行。
那麼英偉達的反應是什麼呢?其實英偉達很早就給了回應,早前發布的GB200就是答案,這顆史無前例的算力怪物在計算能效方面的提升同樣矚目。根據英偉達的介紹,GB200的推理性能是H100的30倍,計算能效是H100的25倍(綜合考慮算力、功耗等參數後的結果)。
顯然,英偉達的腳步也不慢,在接下來的3年時間裡,不管AMD能否完成瘋狂的百倍計劃,AI晶片市場都會迎來一場革新。