阿里雲「硬剛」DeepSeek 稱新車型所有測試全面超越
阿里雲宣布通義千問旗艦版模型Qwen2.5-Max升級發布。 Qwen2.5-Max模型是阿里雲通義團隊對MoE模型的最新探索成果,預訓練資料超過20兆tokens。該模型展現出極強勁的綜合性能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。
據悉,目前開發者可在Qwen Chat(https://chat.qwenlm.ai/)平台免費體驗模型,企業和機構也可透過阿里雲百煉平台直接呼叫新模型API服務。
Qwen2.5-Max在知識(測試大學層級知識的MMLU-Pro)、程式設計(LiveCodeBench)、全面評估綜合能力的(LiveBench)以及人類偏好對齊(Arena-Hard)等主流權威基準測試上,展現出全球領先的模型性能。通義團隊分別對Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本效能進行了評估測試。
指令模型是所有人可直接對話體驗到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
基座模型反映模型裸性能,由於無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團隊將Qwen2.5-Max與目前領先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了比較。在所有11項基準測試中,Qwen2.5-Max全部超越了對比模型。
目前,Qwen2.5-Max已在阿里雲百煉平台上架,模型名稱qwen-max-2025-01-25`,企業和開發者都可透過阿里雲百煉呼叫新模型API。同時,也可以在全新的Qwen Chat平台上使用Qwen2.5-Max,直接與模型對話,或使用artifacts、搜尋等功能。