為迎接超大模型時代,Meta想要打造“全球最快AI超算”
Meta不僅是全球最大的社交網絡公司,和當下最熱門技術概念“元宇宙”的推行者。它同時也是人工智能(AI)研究的全球頂級公司之一。該公司在AI方面卓越研究成果的背後,必然有強大的算力支持。不過一直以來,Facebook從未對外界公開展示過其算力究竟有多厲害。
為元宇宙加碼!Meta推出全球最快AI超級計算機
文/杜晨
而在今天,Meta公司突然對外宣布了其在打造AI超級計算機方面的最新進展。
根據Meta此次公開透露的結果,其打造的超級計算機AIRSC,目前算力在全球應該已經排到了前四的水平。
這個情況已經足以令人非常震驚。畢竟,在算力方面能夠和RSC相提並論的其它超級計算機,均由中國、美國、日本的國有研究機構運作——而RSC是前五里唯來自於私營機構的超算系統。
這還沒完:這台超級計算機,還在以驚人的速度,變得更快、更強。
Meta預測,到今年7月,也即半年之內,RSC的算力將實現2.5倍的增長。另據專業機構 HPCwire估計,Meta的RSC超級計算機,其運行 Linpack benchmark 的算力將有望達到220 PFlops。
如無意外,RSC將成為名副其實的“全球最快AI超級計算機”。
AIRSC內部,圖片來源:Meta
AI研發進入“超算”時代
首先需要回答一個問題:
什麼樣的AI研究,需要如此強大的超級計算機?
一般的模型,或許可以在一般的電腦或普通的數據中心裡,用一塊或是幾塊顯卡就可以完成訓練。而Meta正在研究的,是比目前的模型參數量要大得多,性能要求更高、更嚴格,訓練花費時間更久的——超大模型。
以識別有害內容為例:CV算法需要能夠以更高的採樣率,處理更大、更長的視頻;語音識別算法需要在極大噪音的複雜背景下達到更高的識別準確度;NLP模型要能夠同時理解多種語言、方言和口音,等等……
在過去,許多算法在跑分數據集上都得到了不錯的成績。然而,Meta是一家幾大洲十億級別用戶量的公司,它必須確保同一個模型投放到生產環境中能夠最大限度保證普適性。所以,一般模型不夠用了,現在要訓練大模型。
訓練大模型,需要大算力——問任何一個從事大模型研究的人,你都會得到這樣的答案。畢竟過去的訓練任務用幾週能夠完成,可在今後,面對新的大模型,我們可等不起幾年……
“在今天,包括識別有害內容等在內的許多重要的工作,都對於超大模型產生了極大的需要,”Meta在其新聞稿中寫道,“而高性能計算系統是訓練這些超大模型的重要組件。”
Meta此次發布的超級計算機AIRSC,全稱為AIResearchSuperCluster(人工智能研究超級計算集群)。
雖然Meta在今天首次公開宣布推出這一系統,實際上RSC的前身版本最早在2017年就已經在Facebook公司內部投入生產使用了。當時,Facebook團隊採用了2.2萬張英偉達V100TensorGPU組成了首個單一集群。該系統每天可以運行大約3.5萬個訓練任務。
據HPCwire預計,這個基於V100GPU的前身版本,按照Linpack benchmark的浮點計算性能應該已經達到了135PFlops。這個水平在全球超算排行榜Top500的2021年11月排名中,已經足以排到第三名了,也即其算力可能已經超越了美國能源部在加州Livermore運作的“山脊”(Sierra)超級計算機。
不過,對於Meta來說,這還遠遠不夠。他們想要的,是世界上最大、最快、最強的AI超級計算機。
這台超算還必須要達到生產環境的數據安全級別,畢竟在未來,Meta的生產系統所用的模型可能直接在它上面訓練甚至運行。
並且,這台超算還需要為用戶——Meta公司的AI研究員——提供不亞於一般訓練機/顯卡的使用便利性,和流暢的開發者體驗。
MetaAIRSC技術項目經理KevinLee 圖片來源:Meta
2020年初,Facebook團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要,決定“重新出發”,採用最頂尖的GPU和數據傳輸網絡技術,打造一個全新的集群。
這台新的超算,必須能夠在大小以EB(超過10億GB)為單位的數據集上,訓練具有超過萬億參數量的超大神經網絡模型。
(例如,中國科研機構智源BAAI開發的“悟道”,以及Google去年用SwitchTransformer技術訓練的混合專家系統模型,都是參數量達到萬億級別的大模型;相比來看,此前在業界非常著名的OpenAIGPT-3語言模型,性能和泛用性已經非常令人驚訝,參數量為1750億左右。)
Meta團隊選擇了三家在AI計算和數據中心組件方面最知名的公司:英偉達、PenguinComputing,和PureStorage。
具體來說,Meta直接從英偉達採購了760台DGX通用訓練系統。這些系統包含共計6080塊Ampere架構TeslaA100Tensor核心GPU,在當時,乃至今天,都是最頂級的AI訓練、推理、分析三合一系統。中間的網絡通信則採用了英偉達InfiniBand,數據傳輸速度高達200GB每秒。
存儲方面,Meta從PureStorage採購了共計231PB的閃存陣列、模塊和緩存容量;而所有的機架搭建、設備安裝和數據中心的後續管理工作,則由從Facebook時代就在服務該公司的PenguinComputing負責。
這樣組建出來的新超算集群,Meta將其正式命名為AIRSC:
圖中顯示的是RSC第一階段(P1)的參數細節。圖片來源:Meta
相較於之前FAIR採用V100 顯卡搭建的計算集群,初代 RSC對於生產級別的計算機視覺類算法帶來了20倍的性能提升,運行英偉達多卡通訊框架的速度提升了超過9倍,對於大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為單位。
值得一提的是,在Meta剛剛做好RSC升級計劃的時候,新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性,RSC能否成功升級換代,打上了一個巨大的問號。
然而,公司業務發展和AI科研的需要,無法等待新冠疫情。負責RSC升級和建造的團隊,以及包括英偉達、PenguinComputing、PureStorage等三家矽谷公司在內的技術合作方,不得不在極大的工期壓力下,完成數據中心的裝修建設、設備的生產和運輸、現場裝機、佈線、調試等一系列非常繁瑣和技術要求極高的工作。
更誇張的是由於當時全美各地都有居家隔離令,整個RSC項目團隊的多位負責人,都不得不在家中遠程工作……團隊裡的研究員ShubhoSengupta表示,“最讓我感到驕傲的是,我們在完全遠程辦公的條件下完成了(RSC的升級工作)。考慮到項目的複雜性,完全沒有和其它團隊成員見面就能把這些事都辦了,簡直太瘋狂了”
就目前來看,RSC已經是世界上運行速度最快的AI超級計算機之一了。
但是Meta仍不滿足。
打造全球最快、最安全的AI超算
為了滿足Meta在生產環境和AI研究這兩大方面日益增長的算力需求,RSC必須持續升級擴容。
按照Meta的RSC第二階段(P2)計劃,到今年7月,也即半年之內,整個計算集群的A100GPU總數提升到驚人的1.6萬塊……
初代RSC採用的DGXA100單機數量是760台,折合6,080張顯卡——這樣計算的話,也就是說RSC將在P2 再增加9,920張顯卡,即Meta需要再從英偉達採購1,240台DGXA100超級計算機……
就連英偉達也表示,Meta的計劃,將讓RSC成為英偉達DGXA100 截至目前最大的客戶部署集群,沒有之一。
算力提升了,其它配套設施,包括存儲和網絡,也要跟上。
按照Meta的預計,RSC 的P2完成後,其數據存儲總量將達到1EB——折合超過10億GB。
不僅如此,整個超算集群的單個節點之間的通訊帶寬也獲得了史無前例般的提升,達到驚人的16TB/s,並且實現一比一過載(也即每個DGXA100計算節點對應一個網絡接口,不出現多節點共享接口爭搶帶寬資源的情況)
(这里还有个点值得单独提一下:按照Meta团队的估计,像RSC这样采用DGXA100节点组建超算集群的做法,能够支持的节点上限也就是1.6万了,再多就会出现过载,意味着追加投资的边际收益显著降低。)
在數據安全的角度,Meta這次也沒有忘了在新聞稿中專門介紹其數據處理方式,以求令公眾安心。
“無論是檢測有害內容,還是創造新的增強現實體驗——為了打造新的AI模型,我們都會用到來自公司生產系統,取自真實世界的數據,”Meta表示,這也是為什麼RSC從設計之初就加入了數據隱私和數據安全方面的考慮。只有這樣,Meta的研究院才能夠安全地使用加密、匿名化後的真實世界數據來訓練模型。
1)RSC被設計為無法和真正的互聯網直接連接,而是和位於RSC所在地附近的一座Meta數據中心進行連接;
2)當Meta的研究人員向RSC的服務器導入數據的時候,這些數據首先要通過一道隱私審查系統,確認數據已經進行了匿名化;
3)在數據正式投入到AI模型算法的訓練之前,數據也會再次進行加密,並且密鑰是周期生成和拋棄的,這樣即使有舊的訓練數據存儲,也無法被訪問;
4)數據只會在訓練系統的內存中解密,這樣即使有不速之客闖入RSC,對服務器進行物理訪問,也無法破解數據。
可能是出於保密的目的,Meta甚至連 RSC的具體所在地都沒有透露……
不過根據已知的情況,RSC的附近必有一座Facebook/Meta數據中心存在。並且,下圖截取自RSC的公告視頻,圖中我們可以看到,AIRSC位於右上,左下則是Meta的一座數據中心。圖中有著大量較高的樹木。
矽星人基本可以確定,上圖中的Meta數據中心位於美國弗吉尼亞州Henrico縣。該縣是美國東部最大的數據中心集中地,也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至於RSC的實際所在地,其前身應該是QTSRichmond數據中心。
右邊為Meta數據中心,左邊為QTSRichmond也即MetaAIRSC所在地 截自GoogleMaps
最後,讓我們來看看成本……
不考慮同樣極其昂貴的存儲和網絡基礎設施,我們就先只看計算的部分:
每台DGXA100的標準售價為19.9萬美元,Meta大宗採購肯定有折扣,但假設沒有折扣的話:RSC這次P2的擴容成本,僅顯卡採購的部分,就高達2.5億美元……)
當然,按照今天的Meta市值來看,這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的AI超算,對於這家公司的業務,無論是其現在的核心業務,還是未來的元宇宙產品,預計都能夠帶來非常大的幫助。
Meta是這麼說的:“最終,我們在RSC上面的努力,將能夠為作為下一個關鍵計算平台的元宇宙鋪就道路。屆時,AI驅動的應用和產品將會扮演重要的角色。”