Meta發布最大開源AI模型Llama 3.1 英偉達提供客製化服務,雲端夥伴助陣
Meta美東時間週二發布最新AI模型Llama 3.1 405B,將矛頭對準OpenAI和Google公司開發的大模型。祖克柏稱其為“藝術的起點”,表示Llama 3.1擁有大範圍新的能力,包括改善推理以幫助處理複雜的數學問題、或即時合成一整本書,這是Meta迄今為止最大的模型。同時,英偉達AI Foundry將為全球企業提供Llama 3.1模型的客製化服務。
對標GPT4-o、Claude 3.5 Sonnet
媒體報道,Llama 3.1 405B模型包含4050億個參數,是近年來參數規模最大的模型之一。通常,參數大致對應於模型的解決問題的能力,參數越多的模型通常表現越好。該模型使用16000個英偉達H100 GPU進行訓練,受益於新的訓練和開發技術,Meta聲稱,Llama 3.1 405B在一定程度上可以與OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet競爭。
Meta高層表示,該模型主要用於為Meta內部和外部開發人員的聊天機器人提供支持,具備廣泛的新功能,包括改進的推理能力,幫助解決複雜的數學問題或瞬間綜合整本書的文本。它還具有生成式AI功能,可以透過文字提示產生圖像。一項名為「想像自己」的功能可讓使用者上傳他們的臉部圖像,然後產生他們在不同場景和情境中的描繪。
與Meta之前的模型一樣,Llama 3.1 405B可以下載或在雲端平台(如AWS、Azure和Google Cloud)上使用。它也在WhatsApp和Meta.ai上使用,為美國用戶提供聊天機器人體驗。
祖克柏表示,Meta的聊天機器人擁有「數億」用戶,並預計到年底將成為世界上使用最廣泛的聊天機器人。他希望Meta以外的公司也能使用Llama來訓練自己的AI模型。
Meta在AI上的投資非常大。祖克柏表示,訓練Meta的Llama 3模型花費了「數億美元」的運算資源,但他預計未來的模型成本將會更高。 「未來這將需要數十億甚至更多的運算資源,」他說。 2023年,Meta試圖削減一些未來技術和管理層的支出,裁掉了數千個工作崗位,這是祖克柏稱之為「效率之年」的一部分。但祖克柏仍然願意在AI競賽中投入資金。
「我認為現在很多公司都在過度建設,你回頭看時可能會覺得『哦,我們可能都花了更多的數十億美元’,』」祖克柏說。 “另一方面,我實際上認為所有投資的公司都在做出理性的決定,因為如果落後了,未來10到15年你將在最重要的技術上處於劣勢。”
「如果AI在未來像行動平台一樣重要,那麼我不想透過競爭對手存取AI,」祖克柏說,他長期以來對Meta依賴Google和蘋果手機和作業系統來分發其社群媒體應用程式感到不滿。 “我們是一家技術公司,我們需要不僅在應用層面上構建東西,還要在整個技術棧上進行構建。為此進行這些巨大的投資是值得的。”
目前僅支援文字將嘗試多模態
就像其他開源和閉源生成式AI模型一樣,Llama 3.1 405B可以執行各種任務,可以編程、回答基本數學問題,也可以用八種語言(英語、德語、法語、義大利語、葡萄牙語、印地語語、西班牙語和泰語)總結文件。該模型目前僅支援文字操作,這意味著它不能回答圖像問題,但大多數基於文字的工作負載(如分析PDF和電子表格)都在其能力範圍內。
Meta表示,該公司正在嘗試多模態模型。在周二發表的一篇論文中,該公司研究人員表示,他們正在積極開發可以識別圖像和視訊並理解(和生成)語音的Llama模型。然而,這些模型尚未準備好公開發布。
為了訓練Llama 3.1 405B,Meta使用了一個包含15兆個標記的資料集,這些標記的資料更新到2024年(15兆個標記相當於7,500億個單字)。這不是一個新的訓練集,因為Meta使用了這個基本集來訓練早期的Llama模型,但該公司聲稱它改進了資料管理管道,並採用了「更嚴格」的品質保證和資料過濾方法來開發這個模型。
同時,Meta也使用了其他AI模型產生的合成資料來微調Llama 3.1 405B。目前,包括OpenAI和Anthropic在內的大多數主要AI供應商都在探索合成資料的應用,以擴大AI訓練規模,但一些專家認為合成資料應該作為最後的手段,因為它可能會加劇模型偏見。
在上述論文中,Meta研究人員寫道,與早期的Llama模型相比,Llama 3.1 405B的訓練包含了更多的非英語資料(以提高其在非英語語言上的表現)、更多的「數學數據」和程式碼(以提高模型的數學推理能力)以及最近的網路數據(以增強其對當前事件的了解)。
「在許多方面,訓練資料就像是建立這些模型的秘方和醬料,」Meta AI專案管理副總裁Ragavan Srinivasan在接受TechCrunch採訪時表示。 “所以從我們的角度來看,我們在這方面投入了大量資金。這將是我們會繼續精煉的事情之一。”
同時,祖克柏否認了使用Facebook和Instagram貼文資料訓練Llama是關鍵優勢的說法。 “這些服務上的許多公共數據我們允許被搜尋引擎索引,所以我認為Google等公司實際上也有能力使用很多這些數據。”
更大的上下文視窗和工具
另外,Llama 3.1的上下文視窗(context window)涵蓋128000個標記,比以前的Llama模型更大,大約相當於一本50頁書的長度。
模型的上下文或上下文視窗指的是模型在生成輸出(如文字)之前考慮的輸入資料(如文字)。具有較大上下文視窗的模型,可以總結更長的文字片段和文件。在為聊天機器人提供動力時,這種模型也不太可能忘記最近討論的主題。
Meta週二還推出了另外兩個新的較小模型Llama 3.1 8B和Llama 3.1 70B,這兩款模型是Meta在4月發布的Llama 3 8B和Llama 3 70B模型的更新版本,它們也有128,000個標記的上下文視窗。相比之下,先前的模型上下文視窗最大為8,000個標記。
與Anthropic和OpenAI的競爭模型一樣,所有Llama 3.1模型都可以使用第三方工具、應用程式和API來完成任務。此外,Meta聲稱Llama 3.1模型可以在一定程度上使用某些之前未見過的工具。
建立生態系統
Meta在論文中表示,Llama 3.1 405B的表現與OpenAI的GPT-4相當,在與GPT-4o和Claude 3.5 Sonnet的比較中取得了「混合結果」。儘管Llama 3.1 405B在執行程式碼和生成圖表方面優於GPT-4o,但其多語言能力整體較弱,在程式設計和一般推理方面也落後於Claude 3.5 Sonnet。
由於其規模龐大,它需要強大的硬體來運作。 Meta建議至少使用一個伺服器節點。 Meta表示,Llama 3.1 405B更適合用於模型蒸餾——將大型模型的知識轉移到較小、更有效率的模型上——以及產生合成數據來訓練(或微調)其他模型。
為了鼓勵合成資料的使用,Meta表示已經更新了Llama的許可,允許開發者使用Llama 3.1模型系列的輸出來開發第三方AI生成模型。重要的是,該許可仍然限制了開發者如何部署Llama模型:月活用戶超過7億的應用程式開發者必須向Meta申請特別許可,由公司自行決定是否授予。
除了Llama 3.1系列,Meta還發布了所謂的「參考系統」和新的安全工具,其中一些工具阻止可能導致Llama模型行為不可預測或不理想的提示,以鼓勵開發者在更多地方使用Llama。該公司還預覽並徵求對Llama Stack的意見,這是一個即將推出的API,用於微調Llama模型、使用Llama生成合成數據以及構建“代理”應用程序——由Llama驅動的可以代表用戶採取行動的應用程式.
爭奪市佔率正在研發Llama 4
在周二早上發布的一封公開信中,Meta CEO馬克·祖克柏描繪了一個未來的願景,即AI工具和模型能夠到達世界各地更多的開發者手中,確保人們能夠享受到AI的「好處和機會」。
祖克柏既捍衛自己的開源策略,又大規模投資AI。 「我認為對於一個AI助理來說,最重要的產品特性將是它的智慧程度,」祖克柏在接受媒體採訪時說道。 “我們正在建造的Llama模型是世界上最先進的模型之一。”
祖克柏補充說,Meta已經在研發Llama 4。
目前,Meta採用了一個久經考驗的策略:免費提供工具以培養生態系統,然後逐漸添加一些付費的產品和服務。在模型上花費數十億美元,然後將其商品化,還可以降低Meta競爭對手的價格,並廣泛傳播公司的AI版本。這也讓公司可以將開源社群的改進納入其未來的模型中。
Llama無疑引起了開發者的注意。 Meta聲稱,Llama模型已經被下載了超過3億次,到目前為止已經創建了超過20,000個Llama派生模型。
目前,Meta正在花費數百萬美元遊說監管機構接受其偏好的「開放」生成式AI。雖然,Llama 3.1模型並沒有解決當今生成式AI技術的根本問題,例如其容易編造內容和重複訓練資料中的問題。但它們確實推進了Meta的一個關鍵目標:成為生成式AI的代名詞。
與英偉達聯手AI Foundry將提供客製化Llama 3.1模型服務
此外,Meta還聯合AI晶片領頭羊英偉達週二宣布,英偉達AI Foundry將為全球企業定制Llama 3.1生成式AI模型,將他們的數據與Llama 3.1 405B和英偉達Nemotron模型結合,創建「超級模型」。
英偉達AI Foundry將提供全面的生成式AI模型服務,涵蓋資料管理、合成資料產生、微調、檢索、安全防護和評估,以部署客製化的Llama 3.1 NVIDIA NIM微服務,並提供新的NVIDIA NeMo檢索微服務以實現準確的響應。
Meta是英偉達的頂級客戶之一,由於沒有運行自己的面向企業的雲端服務,Meta需要最新的晶片來訓練其AI模型,這些模型內部用於目標定位和其他產品。例如,Meta表示,Llama 3.1模型的最大版本是在16,000個Nvidia H100顯示卡上訓練的。
分析認為,這種關係對兩家公司來說是各取所需。對於英偉達來說,Meta正在訓練其他公司可以使用和調整的開源模型,而無需支付許可費用或請求許可,這可能會擴大英偉達自身晶片的使用,並保持需求的高漲。
但開源模型的創建可能耗資數億美元或數十億美元。沒有多少公司能夠以類似的投資金額開發和發布這樣的模型。雖然Google和OpenAI是英偉達的客戶,但他們將其最先進的模型保持私有。
另一方面,Meta需要穩定供應的最新GPU來訓練越來越強大的模型。與英偉達一樣,Meta也試圖培養一個以公司開源軟體為中心的AI應用程式開發者生態系統,即使Meta基本上必須免費提供昂貴的程式碼和所謂的AI權重。
媒體通報,埃森哲將是使用新服務為客戶建立客製化Llama 3.1模式的首家企業,沙烏地阿美石油公司、AT&T、Uber和其他產業領袖也成為首批存取新Llama NVIDIA NIM微服務的用戶。
Meta的25個Llama相關企業合作夥伴包括Amazon Web Services、Google Cloud、Microsoft Azure、Databricks和Dell。
網友:偉大的傑作開源的勝利
英特爾首先發來賀電:“恭喜MetaAI!我們很激動能用Llama 3.1的發布來優化我們的AI產品組合。”
有網友表示,“非常棒的研究和進步,正在朝著開源通用人工智慧邁進!”
大部分網友對Meta表示祝賀,認為Llama 3.1是偉大的傑作,是開源社群的勝利。
也有網友質疑,規模如此龐大的模型,運作的時候要耗費多少電力?會對環境造成多大影響?