Llama3發布開源模型追上閉源模型的歷史時刻就在眼前了?
今天AI圈又迎來一件大事:Meta正式發布他們迄今最強的新一代開源大語言模式Llama3。首批發布的Llama3 8B和Llama3 70B包括預訓練和指令微調版本,8K上下文,在兩個24K GPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上最好的模型。同時一個參數超過400B的「最大Llama3」也在訓練中,社群認為這個模型更恐怖,極有可能超過目前的閉源王者GPT-4 Turbo。
Llama3在各種產業基準測試中表現驚艷,廣泛支援各種場景。接下來幾個月,Meta將陸續引入新的功能,包括多語言對話、多模態、更長的上下文和更強整體核心性能,並將與社區分享研究論文。
祖克柏和Meta首席AI科學家Yann LeCun分別在Instagram和X宣布了這個消息。
網友們在留言區一片沸騰,馬斯克前排回應,不錯(有種淡淡的憂傷)。
我們趕快來看看Llama 3的具體表現表現:
多項測驗成績大幅超過Gemini 1.5和Claude Sonnet
Meta表示,新一代Llama3在Llama 2 的基礎上有了重大飛躍,確立了LLM的新標準。在預訓練和後訓練過程上的改進大大降低了錯誤拒絕率,提高了一致性,並增加了模型反應的多樣性。在推理、程式碼產生和指令遵循等方面都得到了極大改善,使得Llama 3 更加可控。
對照表中可見,Llama3 8B在大規模多任務語言理解、生成式預訓練問題回答、編碼和數學等LLM核心基準測試上都力挫Gemma 7B和Mistral 7B。 Llama3 70B同樣戰勝Gemini Pro 1.5和先前被誇大了的Claude 3 Sonnet。
預訓練版本的Llama3 8B和70B也在通用智慧評估、困難任務、ARC挑戰賽、DROP資料集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下敗將之列。
除了專注於LLM標準基準測試項目, Meta還尋求模型在現實場景中的效能最佳化。為此,他們開發了一套新的高品質人工評估集。包含1800 個提示,涵蓋了「尋求建議、腦力激盪、分類、封閉式問題回答、編碼、創意寫作、提取、模擬角色/人物、開放式問題回答、推理、重寫和總結」 這12 個關鍵用例。為了防止發生意外過度擬合,即使是Meta自己的建模團隊也無法存取它。
在這套評估集上, Llama3 70B與Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2對戰後勝率突出。 (這裡沒有把GPT-4和Claude 3 Opus拉來對比,推測後續的400B模型將接過重任。)
Llama 3有哪些技術創新
Meta稱,在Llama3的開發過程中秉承了創新、擴展規模和優化簡潔性的設計理念。重點在於四個關鍵要素:模型架構、預訓練資料、擴大預訓練規模、指令微調。以下分項來看:
模型架構
Llama 3 選擇了一個相對標準的純解碼器Transformer 架構。
相較於Llama 2 的改進之處有:Llama 3 使用一個包含128K tokens的分詞器,可以更有效地編碼語言,從而顯著提高模型性能;在8B 和70B 兩種規模上都採用了分組查詢注意力( GQA)機制來提高模型推理效率;同時在8192 個tokens的序列上訓練模型,使用掩碼確保自註意力不會跨越文件邊界。
訓練資料
Meta認為訓練出最佳LLM的關鍵是要整理一個大型高品質訓練資料集,為此他們投入了大量資源:
Llama 3 在超過15 兆個公開可用來源的token上進行了預訓練,比訓練Llama 2 時的資料集足足大7 倍,程式碼量是Llama 2 的4 倍。其中超過5% 來自高品質非英語數據,總共涵蓋了30 多種語言,以為即將到來的多語言使用情境做準備。
Llama3團隊開發了一系列資料過濾管道來確保資料品質。他們也進行了大量實驗,來評估在最終預訓練資料集中混合不同來源資料的最佳方式,以此來選擇一個包括STEM、編碼、歷史知識等等資料類別的最優資料組合,確保Llama 3 在各種使用場景中表現良好。
擴大預訓練規模
為了更有效利用預訓練數據,Meta針對下游基準評估開發了一系列詳細的擴展法則,在實際訓練模型之前就能預測最大模型在關鍵任務上的性能,來確保最終模型在各種使用場景和能力上都有出色的表現。
在Llama 3 的開發過程中,團隊也對擴展行為有了一些新的觀察。例如,儘管一個8B 參數模型對應的最佳訓練計算量是200B個tokens,但他們的8B 和70B 參數模型在接受高達15 兆個token訓練後,性能仍然呈對數線性提高。
Meta結合了三種平行化方式:資料並行、模型並行和管道並行,來訓練最大的Llama3模型。最有效率地實現在同時使用16K 個GPU 訓練時,每個GPU 的運算利用率超過400 TFLOPS。他們還開發了一個先進的新訓練堆疊,可以自動進行錯誤檢測、處理和維護,並進行了一系列硬體和可擴展儲存系統的改進。最終使整體有效訓練時間超過95%,與Llama 2 相比訓練效率提升了約3 倍。
指令微調方法創新
為了在聊天場景中充分釋放預訓練模型的潛力,Meta也在指令微調方法上進行了創新。後訓練法採用監督微調(SFT)、拒絕採樣、鄰近策略最佳化(PPO)及直接策略最佳化(DPO)的組合。在模型品質上的最大改進來自於仔細整理的訓練數據,並對人工標註人員提供的標註進行多輪品質保證。
透過PPO 和DPO 從偏好排序中學習,也大大提高了Llama 3 在推理和編碼任務上的表現。團隊發現,當你問模型一個它難以回答的推理問題時,模型會產生正確的推理軌跡:知道如何得出正確答案,但不知道如何選擇它。透過在偏好排序上進行訓練,模型就能學會如何選擇正確答案。
哪裡可以用到
根據官方介紹,Llama 3 很快就會在所有主要平台上提供,包括雲端服務商、API 供應商等。從AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama 3 將無所不在。它也得到了AMD、AWS、Dell、Intel、NVIDIA 和Qualcomm 提供的硬體平台支援。
對一般使用者來說,最方便直接感受Llama3的方式就是透過Meta AI。
除了在WhatsApp、Messenger、Instagram、Facebook等應用程式與Meta AI聊天助理對話外,今天還推出了網頁版https://www.meta.ai/。即開即用,可以輸入文字提問來產生圖片和簡單程式碼,支援即時搜索,其它功能還不是很完善。如果想儲存歷史記錄則需登入Facebook帳號。
真正的「GPT-4級」開源模型就在眼前
而Meta透露,Llama 3 8B 和70B 只是Llama 3 系列的開始,更多令人期待的東西即將到來。
一個超過400B 參數的最大模型正在訓練中,開發團隊對此感到興奮。未來幾個月,Meta將發布多個新功能,包括多模態、多語言對話能力、更長的上下文視窗以及更強大的整體能力。一旦完成所有Llama 3 的訓練,他們也會發表一篇詳細的研究論文供社區參考。
Llama3 8B和70B,加上一個證實了正在訓練的400B大模型,無疑地為開源社群注入超強興奮劑。
而不久後即將發布的Llama3 400B+會有多厲害?
大神卡帕西給了很高評價:「Llama 3 是Meta 一個看起來非常強大的模型。堅持基本原則,在可靠的系統和數據工作上花費大量高質量時間,探索長期訓練模型的極限。我也對400B 模型非常興奮,它可能是第一個GPT-4 級別的開源模型。
同時他也提出了個人請求,希望能有比8B 更小參數,理想規模在0.1B到1B左右的模型,用於教育工作、(單元)測試、嵌入式應用等。
英偉達高級研究經理Jim Fan認為,它將標誌著社區獲得對「GPT-4級別模型」開放權重訪問的分水嶺時刻,這將改變許多研究工作和草根創業公司的計算方法。
從目前預測數據來看,Llama3 400B+已經足以匹敵市場上最強大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在訓練中,預計在接下來的幾個月中變得更好。 “有如此強大的基礎設施,可以解鎖很多研究潛力。期待整個生態系統的建設者能量激增!”
一個讓所有人必須考慮的事實就是:開源模型追上閉源模型的歷史時刻可能就在眼前了。
這對開發者可能意味著,AI應用可以更快速的湧現和迭代出來。
而對新創公司來說,則意味著更徹底的想法上的衝擊。
它直接影響到所有以閉源模型API 為核心的商業模式——既然免費的足夠好用,為什麼還要花錢呢?
更重要的是,如果連OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一個比不上開源最強水平的閉源模型的意義何在呢。
最後還是得問一句:GPT-5,你到底在哪裡?