Meta轉向火熱的AI賽道,芯片、產品化和配套追趕是難題
Meta面臨著一個棘手問題:儘管對AI研究斥巨資,但產品轉化進展緩慢,直到ChatGPT火了之後才開始注重。Meta之前對生成式AI需要的GPU這種更貴的芯片部署不夠,而是靠CPU。當發現不可行之後,Meta轉而採購數十億美元的英偉達GPU,但這時候已經被微軟和谷歌等巨頭甩開。
目前,Meta計劃開發一款新型芯片,能像GPU一樣訓練AI模型並執行推理,計劃在2025年左右完成。此外,相關負責人還表示,Meta在AI開發的工具和流程方面都明顯需要改進。
Meta的內部郵件顯示,2022年夏季末,Meta首席執行官馬克·扎克伯格(Mark Zuckerberg)曾召集他的主要助手,對Meta的計算能力進行了5個小時的分析討論,重點是Meta開展先進人工智能(AI)工作的能力。
根據內部郵件、公司公告,以及相關知情人士的透露,Meta面臨著一個棘手的問題:儘管在AI研究方面進行了大規模投資,但關於如何在主營業務中引入對AI友好的軟硬件系統,Meta進展緩慢。在Meta越來越依賴AI去支撐進一步增長的情況下,這影響了該公司推動全面創新的節奏。
這封來自Meta新任基礎設施負責人桑托什·賈納爾漢(Santosh Janardhan)的郵件顯示:“在針對AI的開發方面,我們在工具、工作流和流程方面明顯落後,需要在這方面進行大筆投資。”這封郵件於9月份發佈在Meta的內網,近期首次被曝光。
郵件中還表示,支撐AI工作需要Meta“從根本上改變硬件基礎設施設計、軟件系統,以及提供穩定平台的方法”。
在一年多時間裡,Meta正在開展一個龐大的項目,補足其AI基礎設施的短板。儘管Meta公開承認在AI的硬件發展上有些落後,但這方面的細節,包括算力壓力、管理層更迭和一個被放棄的AI芯片項目,此前從未被報導過。
對於這封郵件和相關的重組舉措,Meta發言人喬恩·卡維爾(Jon Carvill)表示,“憑藉在AI研究和工程開發方面深厚的專業知識,Meta在構建和部署最先進的大規模基礎設施方面已經得到了證明”。
他表示:“隨著我們為應用和消費產品提供新的AI體驗,我們很有信心能繼續拓展基礎設施能力,以滿足短期和長期的需求。”
但對Meta放棄AI芯片項目的消息,他拒絕回應。
根據Meta披露的信息,此次重組導致該公司的資本支出每季度增加了約40億美元,幾乎比2021年翻一番,並導致4個地點數據中心的建設計劃分別暫停或取消。
Meta還正面臨財務壓力。自去年11月以來,Meta啟動了自千禧年代互聯網破滅之後未曾有過的大規模裁員。
另一方面,微軟支持的OpenAI於去年11月30日發布了ChatGPT,這一AI聊天機器人迅速成為有史以來用戶數增長最快的消費級應用,並引發了科技巨頭之間的AI軍備競賽。大型科技公司紛紛推出自己的生成式AI產品。這種AI除了可以識別數據中的模式之外,還能根據輸入信息以類似人工的方式生成文字和視覺內容。
多名消息人士稱,生成式AI消耗了大量算力,導致Meta更加迫切地需要擴大計算基礎設施。
1
曾對燒錢的項目投入不夠
消息人士稱,問題的一大關鍵在於Meta很遲才開始在AI工作中引入GPU芯片。GPU非常適合AI計算,可以並行執行大量任務,大幅減少處理海量數據的耗時。當然,價格也更貴,市場份額的80%都在英偉達手裡。
所以,Meta很大程度上是靠CPU來承擔AI計算任務。CPU是計算機行業的主力芯片,在過去幾十年中遍布全球的數據中心,但不太適合處理AI計算任務。
根據兩名消息人士的說法,Meta還使用自主設計的訂製芯片來進行AI推理。然而到2021年,事實證明,採用CPU和訂製芯片在AI領域比GPU速度更慢、效率更低。此外,與Meta採用的芯片相比,GPU在運行不同類型的AI模型時也更具靈活性。
Meta拒絕對其AI芯片的性能置評。
消息人士表示,隨著扎克伯格推動Meta轉向元宇宙,算力壓力影響了Meta部署AI以應對競爭威脅的能力,例如社交媒體對手TikTok的崛起,以及蘋果主導的廣告隱私政策調整。
這些挫折也引起了Meta前董事會成員彼得·蒂爾(Peter Thiel)的注意。他於2022年初從Meta董事會辭職,但沒有做出任何解釋。
知情人士稱,在他辭職前的一次董事會會議上,蒂爾對Meta高管們表示,他們對Meta的核心社交媒體業務太自滿,而且對元宇宙太走火入魔。
2
轉而選擇GPU,但已落後
一名消息人士稱,2022年,在取消了訂製推理芯片的大規模部署計劃後,Meta高管們轉而開始採購價值數十億美元的英偉達GPU。到這時,Meta已經明顯落後於谷歌等競爭對手。谷歌早在2015年就開始部署訂製版本的GPU,即TPU。
2022年春季,Meta高管還著手重組Meta的AI部門,任命了兩名新的工程負責人,包括9月份郵件的作者賈納爾漢。根據領英平台上的資料以及知情人士的說法,在長達數月的動盪期內,十幾名管理者從Meta離職。MetaAI基礎設施的管理團隊幾乎被徹底更換。
接下來,Meta開始重新規劃數據中心基礎設施,以適應即將部署的GPU芯片。相比於CPU,GPU的耗電量和發熱量都更大,並且需要通過專門設計的網絡連接大量芯片,形成集群。
根據賈納爾漢的郵件以及消息人士提供的信息,這些設施需要24到32倍的網絡容量,以及新的水冷系統來管理芯片集群的散熱,因此相關設施需要“完全重新設計”。
隨著工作的推進,Meta制定了內部計劃,著手開發一種新的自主芯片。這種芯片可以像GPU一樣訓練AI模型並執行推理,目前計劃在2025年左右完成。
Meta發言人卡維爾表示,一些數據中心建設項目目前處於暫停狀態並將過渡到新設計,這些項目將於今年晚些時候重新啟動。他拒絕就Meta內部的芯片項目置評。
3
產品落地進展緩慢
在擴大GPU算力的過程中,Meta目前幾乎沒有任何新的產品技術可以展示。相比較之下,微軟和谷歌等公司正在推動生成式AI產品的公開商用(必應聊天、Bard等)。
今年2月,Meta首席財務官Susan Li承認目前沒有將太多算力投入到生成式AI。她表示,“我們所有的AI能力基本上都給了廣告、信息流和短視頻Reels”。
根據消息人士的說法,直到去年11月ChatGPT推出後,Meta才開始重視生成式AI產品。他們表示, Facebook的AI實驗室FAIR雖然從2021年末就開始發布相關技術的原型,但並沒有把研究轉化為產品。
隨著投資者興趣的提升,情況正在改變。2月,扎克伯格宣布成立一支頂級生成式AI團隊,將“大幅推動”公司在該領域的工作。
Meta首席技術官Andrew Bosworth本月也表示,生成式AI是目前他和扎克伯格花時間最多的領域,預計將在今年發布一款相關產品。
兩名熟悉新團隊的人士表示,該團隊的工作處於早期階段,重點是構建基礎模型作為核心,未來可以針對不同產品需求進行調整。
Meta發言人卡維爾表示,一年多來,Meta的許多團隊都在開發生成式AI產品。他證實,在ChatGPT到來後的幾個月裡,這方面工作已經提速。