Qwen2.5登全球開源王座72B擊敗LIama3 405B 輕鬆勝GPT-4o-mini
擊敗LIama3! Qwen2.5登上全球開源王座。而後者僅以五分之一的參數規模,就在多任務中超越LIama3 405B。各種任務表現也遠遠超出同類別的其他模型。跟上一代相比,幾乎實現了全面提升,尤其在一般任務、數學和編碼方面的能力表現顯著。
值得注意的是,這次Qwen可說是史上最大規模開源,基礎模型直接釋出了7個參數型號,其中還有六、七個數學、程式碼模型。
像14B、32B以及輕量級Turbo模型勝過GPT-4o-mini。
除3B和72B模型外,此次所有開源模型均採用Apache 2.0授權。
- Qwen2.5:0.5B、1.5B、3B、7B、14B、32B和72B
- Qwen2.5-Coder:1.5B、7B和32B(on the way)
- Qwen2.5-Math:1.5B、7B和72B。
直接一整個眼花撩亂,已經有網友開始用上了。
Qwen2.5 72B與LIama3.1 405B水準相當
相較於Qwen2系列,Qwen2.5系列主要有這麼多方面升級。
首先,全面開源。
他們研究表明,使用者對於生產用的10B-30B參數範圍以及行動端應用的3B規模的模型有濃厚興趣。
因此在原有開源同尺寸(0.5/1.5/7/72B)基礎上,也新增了14B、32B以及3B的模型。
同時,通義也推出了Qwen-Plus與Qwen-Turbo版本,可以透過阿里雲大模型服務平台的API服務進行體驗。
可以看到,超半數模型都支援128K上下文,最多可產生8K上下文。
在他們的綜合評測中,所有模型跟上一代相比實現了能力的躍遷,例如Qwen2.5-32B勝過Qwen2-72B,Qwen2.5-14B勝過Qwen2-57B-A14B。
其次,預訓練資料集更大更高品質,從原本7兆個token擴展到最多18兆個token。
然後就是多方面的能力增強,例如獲得更多知識、數學編碼能力以及更符合人類偏好。
此外,還有在指令追蹤、長文本產生(從1k增加到8K以上token)、結構化資料理解(如表格)和結構化輸出產生(尤其是JSON)方面均有顯著提升。
來看看實際效果。
表格理解
產生JSON輸出
此外,Qwen2.5模型整體對系統提示的多樣性具有更強的適應能力,增強了聊天機器人的角色扮演實現和條件設定能力。
那就來看看具體模型能力如何。
旗艦模型在前文已經看到,它在各個任務都有明顯的進步。
而像0.5B、1.5B以及3B這樣的小模型,性能大概是這樣的:
值得注意的是,Qwen2.5-0.5B型號在各種數學和編碼任務上的表現優於Gemma2-2.6B。
除此之外,Qwen2.5也展現了指令調優之後的模型效能,72B-Instruct在幾項關鍵任務中超越了更大的Llama-3.1-405B,尤其在數學(MATH:83.1)、編碼( LiveCodeBench:55.5)和聊天(Arena-Hard:81.2)方面表現出色。
還有像32B-Instruct、14B-Instruct以及Qwen2.5-Turbo,展現了與GPT-4o-mini相當的能力。
Qwen史上最大規模開源
除了基礎模型,此次Qwen還放出了程式碼和數學專業模型。
Qwen2.5-Coder提供了三種型號大小:1.5B、7B和32B版本(即將推出)。
主要有兩點改進:程式碼訓練資料規模的擴大以及編碼能力的增強。
Qwen2.5-Coder在更大規模的程式碼資料上進行訓練,包括原始碼、文字程式碼基礎資料和合成數據,總計5.5兆個token。
它支援128K上下文,覆蓋92種程式語言。開源的7B版本甚至超越了DeepSeek-Coder-V2-Lite和Codestral等更大型的模型,成為目前最強大的基礎程式碼模型之一。
而數學模型這邊,Qwen2.5-Math主要支持透過CoT和TIR解決英文和中文數學問題。
目前不建議將此系列模型用於其他任務。
Qwen2.5-Math這一系列開源了包含基礎模型Qwen2.5-Math-1.5B/7B/72B、指令調優模型Qwen2.5-Math-1.5B/7B/72B-Instruct,以及數學獎勵模型Qwen2 .5-Math-RM-72B。
與Qwen2-Math系列僅支援使用思考鏈(CoT)解決英文數學問題不同,Qwen2.5-Math 系列擴充支援使用思考鍊和工具整合推理(TIR)解決中英文數學問題。
跟上一版本相比,他們主要做了這三件事來實現基礎模型升級。
利用Qwen2-Math-72B-Instruct模型來合成額外高品質的數學預訓練資料。
從網路資源、書籍和程式碼收集更多高品質的數學數據,尤其是中文數據,跨越多個時間週期。
利用Qwen2.5系列基礎模型進行參數初始化,展現出更強大的語言理解、程式碼產生和文本推理能力。
最終實現了能力的提升,例如1.5B/7B/72B在高考數學問答中分別提升了3.4、12.2、19.8 分。
好了,以上是Qwen2.5系列一整套堪稱「史上最大規模」的開源。
不叫草莓叫獼猴桃
阿里通義開源負責人林俊暘也分享了背後的一些細節。
他首先表示,在開源Qwen2的那一刻就開始了Qwen2.5計畫。
在這過程中,他們認識到了很多問題和錯誤。
例如在預訓練方面,他們只是專注於提升預訓練資料的品質和數量,使用了許多大家熟悉的方法。
例如文字分類器用於召回高品質數據,LLM 評分器用於對數據進行評分,這樣就能在品質和數量之間取得平衡。
還有在創建專家模型的同時,團隊也利用它們來產生合成數據。
在後期訓練時候,使用者的回饋來幫助他們逐一解決問題,同時他們也在探索RLHF 方法,尤其是線上學習方法。
對於之後的升級和更新,他表示受o1啟發,認為應該深入研究推理能力。
值得一提的是,在Qwen2.5預熱之時,他們團隊就透露不叫草莓,叫獼猴桃。
好了,現在獼猴桃可以快快用起來了。
參考連結:
[1]https://x.com/JustinLin610/status/1836461575965938104
[2]https://x.com/Alibaba_Qwen/status/1836449414220779584
[3]https://qwenlm.github.io/blog/qwen2.5/
[4]https://qwenlm.github.io/blog/qwen2.5-llm/
[5]https://qwenlm.github.io/blog/qwen2.5-coder/
[6]https://qwenlm.github.io/blog/qwen2.5-math/