Meta公佈AI硬件重要進展:兩顆自研芯片亮相還有一台超算
據外媒Techcrunch報導,在19日上午的一場線上活動中,Facebook 母公司Meta首度公開了其自研AI 芯片的進展,可以支持其最近推出的廣告設計和創作工具的生成式AI技術。
△Meta CEO扎克伯格展示首款自研AI芯片MTIA
Meta基礎設施副總裁Alexis Bjorlin表示:“構建我們自己的[硬件] 功能使我們能夠控制堆棧的每一層,從數據中心設計到培訓框架。需要這種水平的垂直整合才能大規模突破人工智能研究的界限。”
首款自研AI芯片MTIA
在過去十年左右的時間裡,Meta 花費了數十億美元來招募頂級數據科學家並構建新型人工智能,包括現在為發現引擎、審核過濾器和遍布其應用程序和服務的廣告推薦器提供支持的人工智能。但該公司一直在努力將其許多雄心勃勃的AI 研究創新轉化為產品,尤其是在生成式AI 方面。
自2016 年以來,頭部的互聯網廠商都在積極的自研雲端AI芯片。Google 一直在設計和部署稱為Tensor Processing Units(TPU)的自研AI芯片,用於訓練生成式AI 系統如PaLM-2、Imagen 等;亞馬遜則向AWS 客戶提供AWS Trainium、AWS Inferentia 兩款自研芯片進行應用。傳聞微軟也傳出正與AMD合作開發一款名為Athena 的AI芯片。
此前,Meta 主要使用第三方的CPU 和專為加速AI 算法而設計的定制芯片的組合來運行其AI 工作負載——CPU 在處理這類任務時的效率往往低於GPU。為了扭轉局面,Meta 在2020年開發了其第一代基於7nm工藝的自研AI芯片MTIA(MTIA v1)。
Meta 將該AI芯片稱為Meta Training and Inference Accelerator,簡稱MTIA,並將其描述為加速AI 訓練和推理工作負載的AI芯片“家族”的一部分。MTIA 是一種ASIC,一種將不同電路組合在一塊基板上的芯片,允許對其進行編程以並行執行一項或多項任務。
“為了在我們的重要工作負載中獲得更高水平的效率和性能,我們需要一個與模型、軟件堆棧和系統硬件協同設計的定制解決方案,以使得各種服務為我們的用戶提供更好的體驗。”Bjorlin解釋說道。
據介紹,MTIA v1基於7 納米工藝,可以從其內部128 MB 內存擴展到高達128 GB。Meta表示,MTIA可以專門用於處理與AI 推薦系統相關的工作,幫助用戶找出最佳貼文內容並更快呈現在用戶眼前,其計算性能和處理效率都勝過CPU。另外,在Meta 設計的基準測試中,MTIA處理“低複雜性” ”和“中等複雜度”的AI 模型也比GPU 更高效。
Meta 表示,MTIA芯片的內存和網絡領域仍有一些工作要做,隨著AI 模型規模的增長,這會出現瓶頸,需要將工作負載分配到多個芯片上。(為此,Meta 最近收購了位於奧斯陸的英國芯片獨角獸Graphcore 的AI 網絡技術團隊。)目前,MTIA 的重點完全放在Meta 應用程序系列“推薦工作負載”的推理上,而不是訓練上。
Meta 強調,它將繼續改進的MTIA ,在運行推薦工作負載時“大大”提高了公司在每瓦性能方面的效率——反過來允許Meta 運行“更加增強”和“尖端”人工智能工作負載。
根據計劃,Meta 將在2025 年正式推出自研的MTIA芯片。
Meta的AI超級計算機RSC
報導稱,Meta原本計劃在2022 年大規模推出其自研的定制AI芯片,但最終卻推遲了,轉而為其超級計算機Research SuperCluster (RSC) 訂購了價值數十億美元的NVIDIA GPU,這需要對其多個數據中心進行重大重新設計。
據介紹,RSC 於2022 年1 月首次亮相,與Penguin Computing、NVIDIA 和Pure Storage 合作組裝而成,已經完成了第二階段的擴建。Meta 表示,它現在包含總共2,000 個NVIDIA DGX A100 系統,配備16,000 個NVIDIA A100 GPU。
雖然,目前RSC的算力已經落後於微軟和Google的AI超級計算機。比如,Google宣稱其專注於人工智能的超級計算機擁有26,000 個NVIDIA H100 GPU。但是,Meta 表示,RSC 的優勢是允許其研究人員使用Meta 生產系統中的真實示例來訓練模型。這與該公司之前的AI 基礎設施不同,之前僅利用開源和公開可用的數據集。
“RSC AI 超級計算機用於在多個領域推動AI 研究的邊界,包括生成式AI。”Meta 發言人稱:“這真的關係到人工智能研究的生產力。我們希望為AI 研究人員提供最先進的基礎設施,使他們能夠開發模型並為他們提供培訓平台以推進AI 發展。”
Meta稱,在其巔峰時期,RSC 可以達到近5 exaflops 的計算能力,這使其成為世界上最快的計算能力之一。
Meta使用RSC 來訓練LLaMA,這是“大型語言模型Meta人工智能”的首字母縮寫詞。Meta 表示,最大的LLaMA 模型在2,048 個A100 GPU 上進行了訓練,耗時21 天。
“構建我們自己的超級計算能力使我們能夠控制堆棧的每一層;從數據中心設計到培訓框架,”Meta發言人補充道:“RSC 將幫助Meta 的AI 研究人員構建新的更好的AI 模型,這些模型可以從數万億個示例中學習;跨數百種不同的語言工作;一起無縫分析文本、圖像和視頻;開發新的增強現實工具;以及更多。”
未來,Meta或將自研的AI芯片MTIA導入RSC當中,以進一步提升其AI性能。
面向視頻處理的AI芯片MSVP
除了MTIA之外,Meta還在自研另一款被稱為Meta Scalable Video Processor(MSVP)的AI芯片,主要面向持續成長的滿足視頻點播和直播流媒體的數據處理需求,Meta最終希望將大部分成熟且穩定的影音內容處理工作交由MSVP 執行。
其實,Meta 多年前就開始構思定制服務器端視頻處理芯片,並宣佈在2019 年推出用於視頻轉碼和推理工作的ASIC。這是其中一些努力的成果,也是對競爭優勢的新推動。特別是視頻直播領域。
“僅在Facebook 上,人們就將50% 的時間花在觀看視頻上,”Meta 技術主管Harikrishna Reddy 和Yunqing Chen 在19日上午發表的一篇博客文章中寫道:“為了服務於世界各地的各種設備(移動設備、筆記本電腦、電視等),上傳到Facebook 或Instagram 的視頻被轉碼為多個比特流,具有不同的編碼格式、分辨率和質量……MSVP是可編程和可擴展的,並且可以配置為有效地支持VOD 所需的高質量轉碼以及實時流媒體所需的低延遲和更快的處理時間。”
△MSVP
Meta 表示,它的計劃是最終將大部分“穩定和成熟”的視頻處理工作負載卸載到MSVP,並僅對需要特定定制和“顯著”更高質量的工作負載使用軟件視頻編碼。Meta 說,使用智能降噪和圖像增強等預處理方法以及偽影去除和超分辨率等後處理方法,我們將繼續使用MSVP 提高視頻質量。
“在未來,MSVP 將使我們能夠支持更多Meta 最重要的用例和需求,包括短視頻——實現生成式AI、AR/VR 和其他元宇宙內容的高效交付。”Reddy 和Chen 說。