微軟將數万顆芯片串聯成一台價格不菲的超級計算機用於OpenAI
當微軟公司於2019年向OpenAI投資10億美元時,它同意為這家人工智能研究初創公司建造一台大規模的尖端超級計算機。唯一的問題是:微軟沒有像OpenAI所需要的設施,也不完全確定它能在其Azure雲服務中建造這麼大的東西而不至於導致整體崩潰。
OpenAI試圖訓練一套越來越大的被稱為模型的人工智能程序,這些程序正在吸收更多的數據,並學習越來越多的參數,即人工智能係統通過訓練和再訓練而發現的變量。這意味著OpenAI需要長期使用強大的雲計算服務。
為了應對這一挑戰,微軟不得不想方設法將數以萬計的英偉達的A100圖形芯片–訓練人工智能模型的主力–串聯起來,並改變其在機架上放置服務器的方式以防止斷電。負責雲計算和人工智能的微軟執行副總裁Scott Guthrie不願透露該項目的具體成本,但他說”可能會大於”幾億美元。
這項技術讓OpenAI發布了ChatGPT,這一具有強大語言天賦的聊天機器人在11月上市後幾天內就吸引了100多萬用戶,現在正被拉入其他公司的商業模式,從億萬富翁對沖基金創始人Ken Griffin經營的公司到食品配送服務Instacart Inc. 隨著ChatGPT等生成型人工智能工具獲得企業和消費者的興趣,微軟、亞馬遜公司和Alphabet公司旗下的Google等雲服務提供商將面臨更多壓力,以確保其數據中心能夠提供所需的巨大計算能力。
現在,微軟使用它為OpenAI建立的同一套資源來訓練和運行自己的大型人工智能模型,包括上個月推出的新的Bing搜索機器人。它還將該系統出售給其他客戶。這家軟件巨頭已經開始著手開發下一代人工智能超級計算機,這是微軟與OpenAI擴大交易的一部分,微軟在其中增加了100億美元的投資。
訓練一個大規模的人工智能模型需要像微軟組裝的人工智能超級計算機那樣,在一個地方有一個大型的連接圖形處理單元池。一旦一個模型投入使用,回答用戶提出的所有查詢–稱為推理–需要一個稍微不同的設置。微軟也部署了用於推理的圖形芯片,但這些處理器–數十萬個–在地理上分散在該公司60多個地區的數據中心中。現在,該公司正在為人工智能工作負載添加最新的NVIDIA圖形芯片–H100–和NVIDIA最新版本的Infiniband網絡技術,以更快地分享數據,微軟週一在一篇博文中說。
新的必應仍處於預覽階段,微軟正在逐步從等待名單中增加更多的用戶。微軟的AI團隊每天與大約二十幾名員工舉行會議,他們被稱為”維修人員”,因為他們是在比賽中調整賽車的機械師。該小組的工作是弄清楚如何快速上線更多的計算能力,以及解決出現的問題。
雲服務依賴於數以千計的不同部件和物品–服務器、管道、建築物的混凝土、不同的金屬和礦物等各個部分–任何一個部件的延遲或短缺,無論多麼微小,都會使一切都中斷。最近,維修人員不得不處理電纜托架的短缺問題–這種籃子一樣的裝置用來放置機器上的電纜。所以他們設計了一種新的電纜盤,微軟可以自己生產或找地方購買。他們還在研究如何在世界各地現有的數據中心中盡可能多地壓縮服務器,這樣他們就不必等待新的建築完工。
當OpenAI或微軟正在訓練一個大型的人工智能模型時,工作在一個時間段內發生,它被分到所有的GPU上,在某些時候,這些單元之間需要相互交談,以分享它們所做的工作。對於人工智能超級計算機,微軟必須確保處理所有芯片之間通信的網絡設備能夠處理這種負載,而且它必須開發軟件,使GPU和網絡設備得到最佳利用。該公司現在已經提出了一個軟件,可以讓它訓練具有幾十萬億個參數的模型。
因為所有的機器都是一次性啟動的,所以微軟必須考慮到它們的放置位置和電源的位置,否則你就會出現像在廚房裡同時打開微波爐、烤麵包機和吸塵器一樣的過載問題。
Azure全球基礎設施總監Alistair Speirs說,該公司還必須確保它能夠冷卻所有這些機器和芯片,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用更高技術的冷卻裝置。
微軟將繼續研究定制的服務器和芯片設計以及優化其供應鏈的方法,以獲得任何速度上的提高、效率和成本上的節省。