阿里雲「硬剛」DeepSeek 稱新車型所有測試全面超越

2025-01-30 Comments 0 Comment

阿里雲宣布通義千問旗艦版模型Qwen2.5-Max升級發布。 Qwen2.5-Max模型是阿里雲通義團隊對MoE模型的最新探索成果，預訓練資料超過20兆tokens。該模型展現出極強勁的綜合性能，在多項公開主流模型評測基準上錄得高分，全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。

據悉，目前開發者可在Qwen Chat（https://chat.qwenlm.ai/）平台免費體驗模型，企業和機構也可透過阿里雲百煉平台直接呼叫新模型API服務。

Qwen2.5-Max在知識（測試大學層級知識的MMLU-Pro）、程式設計（LiveCodeBench）、全面評估綜合能力的（LiveBench）以及人類偏好對齊（Arena-Hard）等主流權威基準測試上，展現出全球領先的模型性能。通義團隊分別對Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本效能進行了評估測試。

指令模型是所有人可直接對話體驗到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中，Qwen2.5-Max比肩Claude-3.5-Sonnet，並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

基座模型反映模型裸性能，由於無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型，通義團隊將Qwen2.5-Max與目前領先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B，以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了比較。在所有11項基準測試中，Qwen2.5-Max全部超越了對比模型。

目前，Qwen2.5-Max已在阿里雲百煉平台上架，模型名稱qwen-max-2025-01-25`，企業和開發者都可透過阿里雲百煉呼叫新模型API。同時，也可以在全新的Qwen Chat平台上使用Qwen2.5-Max，直接與模型對話，或使用artifacts、搜尋等功能。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

阿里雲「硬剛」DeepSeek 稱新車型所有測試全面超越

2025-01-30 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆