兩家AI巨頭正討論建超級AI資料中心每個耗資1250億美元
全球頂尖的人工智慧開發商對其最先進的技術一向保密,而對於開發這些技術所需的專業資料中心,他們則更加諱莫如深。根據美國科技媒體《The Information》披露,美國七個州有17個已建成或規劃中的人工智慧資料中心,這些資料中心有時被稱為超級電腦或人工智慧晶片叢集。目前,這些超級運算資料中心或已投入營運,或正由微軟、OpenAI、Meta及馬斯克(Elon Musk)旗下的xAI等公司籌備中。
總的來看,這些資料中心的建設與規劃總投資預計將超過500億美元,其中包括英偉達提供的價值近350億美元的人工智慧伺服器晶片,以及龐大的營運成本。值得注意的是,某些更具前瞻性的項目,如微軟與OpenAI探討的、價值高達1000億美元的超級計算機,尚未列入上述統計中,因為這些項目仍處於理論構想階段,尚無明確的發展計劃。
這些公司基本上都在追求同一個目標,即實現超級智能,以期解決核融合、全球暖化甚至人類星際殖民等重大挑戰。他們構思中的超級電腦規模空前,堅信運算能力的飛躍將賦予人工智慧前所未有的超凡能力。
DataBank執行長勞爾‧馬蒂內克(Raul Martynek)指出:「這項追求直接關聯到對更多人工智慧伺服器晶片、更多電力以及更大資料中心容量的渴求。」DataBank正在為參與人工智慧競賽的頂尖雲端服務供應商建置資料中心。
在美國,部署這些超級電腦專案不僅耗時良久,還面臨晶片、土地和電力資源短缺的巨大挑戰。美國能源部已意識到潛在的電力供應不足問題,並積極探索解決方案,如資助研發以提升人工智慧運算效率的技術。
目前討論中的資料中心規模史無前例。在ChatGPT引發的生成式人工智慧熱潮之前,英偉達的晶片集群規模通常僅限於數千顆GPU晶片。然而,如今的頂尖集群已突破三萬顆晶片大關,這些晶片相互連接和通信,就像它們是同一台電腦的一部分。明年,多家公司計劃推出搭載十萬顆晶片的超大規模運算集群。
與傳統晶片相比,GPU的能耗顯著增加,一個容納十萬顆GPU的群聚預計將消耗高達100兆瓦的電力。這種耗電量是傳統資料中心的十倍之多,足以供7萬至10萬戶家庭的日常用電。
微軟與OpenAI曾構思打造一台價值千億美元的超級計算機,分別以「星門」(Stargate,OpenAI的代號)與「水星」(Mercury,微軟的代號)命名。這台超級電腦預計將整合數百萬顆GPU,其電力需求高達數吉瓦(1吉瓦等於1百萬千瓦)。然而,這項壯舉面臨重重技術挑戰,包括如何實現晶片間的高效互聯,以及確保充足的電力供應。
知情人士透露,由於專案融資路徑尚不明朗,微軟與OpenAI或將分別獨立探索這項宏偉計畫的實施路徑。
奔向“下一個高原”
英偉達執行長黃仁勳在這場資料中心競賽中佔據核心地位,他的言論進一步加劇了市場競爭的白熱化。他近期向分析師表示:“率先抵達下一個超級計算集群平台者,將引領人工智慧領域的革命。”
連谷歌也加入了這場競爭。儘管Google採用的是與博通聯合設計的張量處理單元(TPU)晶片,但仍然對英偉達即將發布的Blackwell晶片下了大額訂單。
GPU的激烈競爭不僅加劇了主要人工智慧開發人員與雲端供應商之間的緊張關係,有時也波及到英偉達內部。例如,馬斯克曾考慮與甲骨文簽署一項巨額協議。根據該協議,他的人工智慧公司xAI將在未來幾年內斥資100億美元租用英偉達的GPU。談判最終破裂,部分原因是馬斯克對甲骨文建構超級電腦的速度不滿,而甲骨文則擔憂馬斯克計劃部署GPU集群的地點電力供應不足。
儘管如此,馬斯克宣布xAI已在田納西州孟菲斯建成一個包含十萬顆英偉達H100 GPU的運算集群,該晶片是業界頂尖的通用解決方案之一。
馬斯克週一在一篇貼文中表示,這個名為「巨人」(Colossus)的十萬顆晶片集群已經啟動並運行,它是「世界上最強大的人工智慧訓練系統」。然而,據兩位熟知xAI晶片訂單及工廠產能的知情人士透露,目前實際運作的晶片數量尚不足總數的一半,主要受限於電力或網路設備。
無論馬斯克的表述是否誇大,其言論已在人工智慧巨頭之間引起軒然大波,各開發人員紛紛擔憂被追趕。據知情人士透露,OpenAI執行長薩姆·奧特曼(Sam Altman)曾向微軟高層表達類似擔憂,認為xAI很快將擁有比OpenAI更多的運算能力。這或許正是他積極推動開發新型人工智慧晶片的原因之一。
更多晶片,更多問題
為了最大限度地提高GPU在訓練新人工智慧方面的效率,開發人員正在嘗試在單一資料中心或同一區域的多個資料中心部署大型GPU叢集。
然而,建構以GPU為核心的資料中心仍是新興領域,面臨許多挑戰。 Digital Realty技術長 Chris Sharp)指出,建造大型GPU叢集的一個挑戰是連接GPU的網路設備能力有限,因為這些設備並非為大型叢集設計的。 Digital Realty是一家資料中心的所有者,其客戶包括主要的雲端服務供應商。
夏普補充道:“鑑於現有的技術制約,我們必須重新思考設計參數,以確保能夠順利建造並運行包含55,000顆甚至更多GPU的超大規模集群。”
此外,熱量管理問題也不容忽視。傳統資料中心依賴空氣冷卻,但GPU伺服器產生的熱量遠超傳統設備,業界必須尋求更有效率的解決方案。微軟在威斯康星州芒特普萊森特為OpenAI建造的資料中心,計畫採用水冷技術取代空氣冷卻,以應對GPU產生的高熱量。
超級電腦先鋒
據知情人士透露,2019年左右,微軟在愛荷華州為OpenAI建造了兩台GPU超級計算機,這是兩家公司達成首次商業合作夥伴關係後的一部分。目前,其中一台已退役,而另一台則持續助力OpenAI訓練其旗艦大語言模型GPT-4,並且仍在運行。
近年來,微軟在鳳凰城的資料中心規模持續擴大,並同步推動威斯康辛州與亞特蘭大地區的超級電腦建設計畫。儘管地理位置相距甚遠,這兩地的集群將協同工作,共同服務新模型的訓練任務。
據內部人士透露,威斯康星州設施全面完工後,總投資可能達到100億美元,但預計從明年下半年起,部分設施將率先投入營運。
1250億美元巨額項目
許多頂尖GPU叢集選址於電力充沛、資料中心資源豐富的地區,如鳳凰城,吸引了亞馬遜、Meta及微軟等巨頭在此部署人工智慧伺服器。然而,隨著集群規模的擴展和電力需求的增加,這些公司開始將目光投向傳統資料中心樞紐以外的新區域。
亞馬遜就是一個典型例子。該公司在賓州中部核電廠附近購地,計畫興建一座電力容量高達1千兆瓦的資料中心,其供電能力足以媲美奧斯汀或舊金山等城市,或支援建構100萬顆GPU的龐大集群。
同時,北達科他州也成為焦點。該州商務專員喬希·泰根(Josh Teigen)透露,兩大全球頂尖人工智慧開發商正在與該州政府接觸,探討建造超級人工智慧資料中心的可行性。初期規劃電力需求在500至1000兆瓦之間,並計劃在未來幾年內擴展至5至10吉瓦。
這些擬建項目規模空前,遠超過目前任何資料中心,凸顯了人工智慧發展對電力和空間資源的巨大需求。以微軟Azure為例,其全球資料中心去年底的總耗電量接近5吉瓦。
泰根透露,每個超級計算項目的造價可能飆升至1,250億美元以上。儘管他沒有點名參與討論的公司,但指出這些公司均為市值「萬億美元」級別的巨頭。這把名單縮減到了美國的六大企業:英偉達、亞馬遜、微軟、谷歌、Meta和蘋果。雖然特斯拉也正在開發人工智慧,曾達到兆美元市值,但目前其市值約為7,000億美元。
微軟因與OpenAI探討的千億美元超級電腦計畫而備受矚目,成為潛在的有力競爭者。同時,北達科他州州長伯格姆曾是微軟高階主管,他在2001年以11億美元的價格將一家公司賣給了這家科技巨頭。此外,谷歌和亞馬遜等公司也積極擴展其人工智慧運算能力。
泰根表示,過去六週內,「多家企業的代表」已造訪北達科他州,在雄厚資金支持下,計畫推進速度非常快。他強調:“討論正處於加速階段”,並確信自己正與“最積極推動這一項目的公司”進行實質談判。
泰根急切呼籲州內官員迅速採取行動,簡化土地重新劃分流程並促進與電力公司的合作,以吸引人工智慧資料中心計畫落戶北達科他州,否則恐錯失「千載難逢」的發展機會。他警告道:“若我們行動遲緩,得州、俄克拉荷馬州乃至其他州將搶佔先機,而我們則將錯失經濟飛躍的良機,無法實現真正的多元化與韌性增長。”
資料中心產業的專家長期以來對北達科他州保持高度關注,因為該州是美國少數能源產出大於消耗的州之一,具有獨特優勢。根據美國能源情報署數據顯示,北達科他州在原油生產方面位列全美第三,僅次於德州和新墨西哥州,為資料中心計畫提供了堅實的能源保障。