Qwen3 發布阿里也要靠多模態和性價比打天下了
阿里雲正式發布了Qwen3系列,一口氣開源了從0.6B到235B共8款模型:2個MoE大模型和6個Dense大模型,構成了阿里完整的模型矩陣。這次Qwen3的開源重塑了大型模型標準,可以說在「後DeepSeek R1」時代,以阿里為代表的國內大廠,正在藉助產品化思維,以性價比和多模態能力全方位搶奪DeepSeek的市場影響力。

Qwen3再一次拉高了世界開源標準
這回阿里雲開源的Qwen3,在架構、效能、推理速度和應用方向上都有較大創新和提升。 Qwen3系列在模型架構上採用了MoE(混合專家)架構。
旗艦模型Qwen3-235B-A22B 擁有約2350億的總參數量,在每次推理時僅激活約220億參數,性能極其耐打,在綜合能力、代碼與數學、多語言能力、知識與推理等多項基準測試中,都能與DeepSeek R1、OpenAI o1、omini3-Ge11、omini、Grok Prook Prook Pro 25157575757575757575752572599925. Prook7 版本。

一個亮點是:Qwen3-4B模型憑藉極低的參數量,在一系列基準測試中與GPT-4o(2024-11-20版本)打了個有來有回。這體現了阿里在推理效率上的提升並非以犧牲能力為代價。

其輕量化模式Qwen3-30B-A3B和32B,在許多任務上的表現也足夠令人滿意。

除了基準測試上亮眼的表現外,Qwen3系列這回的一個主要創新特點是:混合思考模式。這種設計讓使用者能根據任務難度控制模型的推理量:思考模式下,模型能夠逐步推理,適合複雜問題,強調深度思考。無思考模式:模型快速反應,適合簡單問題,優先速度。難問題用更多推理,簡單問題快速解答。

並且,Qwen3為了在國際應用端擴展影響力,已經能夠支援119種語言和方言。外網的各國網友對其的評價都很不錯,橫向對比的話,Qwen3已經追上或超越了OpenAI o1、GoogleGemini 2.5 Pro。

Qwen3也針對最近半年爆火的「AI智能體」概念做出了優化,強調了「智能體」能力。例如它們強化了Qwen3 模型的編碼和代理能力,並增強了對MCP 的支持,讓Qwen3 學會如何思考以及如何與環境互動。

在預訓練方面,Qwen3 的資料集相比Qwen2.5 幾乎增加了一倍,達到了3.6萬億個token,涵蓋了更廣泛的領域知識和語境,再度提升了在複雜任務處理和多語言場景中的表現。

這回Qwen3系列的開源,統一採用Apache 2.0開源協定開放權重。透過「小杯-中盃-大杯-超大杯」的產品邏輯建構了一個完整的「Qwen宇宙」。
綜合來看,Qwen3 在單純的技術性能、成本價格、工具調用和MCP調用等所有方面獲得了全面的提升,其已經將開源世界的標準提升了一個層次。
DeepSeek光環下的大廠百態
4月25日的2025百度AI開發者大會上,百度創始人李彥宏點名批評DeepSeek“不是萬能的,它只能處理單一的文本,不能理解聲音、圖片、視頻等多模態內容。更大的問題是慢和貴,中國市場上絕大多數大模型API的價格都更低,而且反應速度更快。”
他點出了DeepSeek龐大光環下,中國的大廠正走向用性價比抗衡DeepSeek的現狀:用更小參數,更低成本的方式,實現更快的響應,完成不屬於DeepSeek的多模態效果。
阿里的Qwen3迅速引入MoE架構和雙模式推理設計,將龐大模型在實際使用上的成本大幅降低。憑藉DeepSeek R1三分之一的參數量,性能全面超越R1。
首先,Qwen3的MoE架構使得推理過程中僅啟動部分專家,從而降低了實際計算開銷。例如,Qwen3-235B-A22B雖然總參數達235B,但每個token只需計算其中約9%(22B)的參數。這意味著在相近硬體條件下,其推理延遲並不像參數規模看起來那樣高不可攀。
其次,Qwen3的雙模式推理設計有效率地分配算力。在「非思考模式」下,模型可直接產生答案,實現接近即時的回應;而在需要「思考模式」時,才投入額外計算資源進行多步驟推理。這種按需分配運算的策略,使模型在大部分簡單互動中保持了快速性,又能在關鍵時刻發揮深度推理能力。
這其實與騰訊的雙軌思路相似。 2025年2月13日,騰訊元寶接入DeepSeek R1滿血版,幾天之後就上線了「強推理深度思考模型」混元T1模型,隨即混元團隊官宣Turbo S模型上線測試,號稱在響應速度上比DeepSeek R1更快。 Turbo模型針對日常對話進行最佳化,弱化長鏈推理而追求即時回答能力。騰訊內部的AI助手「元寶」應用中,就整合了Turbo快思考和T1深思考兩種模型,允許用戶在需要詳細推理時調用T1,平時默認用Turbo即時回答。
這種雙軌策略,與阿里Qwen3單模型雙模式有異曲同工之妙,都是為不同複雜度的問題提供差異化模型,既保證效果又保證速度。
DeepSeek R1自從正式上線以來,其幻覺現象頻傳就成為了各大廠商瞄準的攻堅對象。

百度就是其中的代表。百度在國內大模型競爭中經歷了一個明顯的策略轉折:從最初堅持閉源、尋求商業變現,到在DeepSeek等衝擊下宣布開源、全面免費的重大轉向。
2025年3月16日,百度如期發布了文心大模型4.5。文心4.5定義為百度首個「原生多模態」大模型,具備圖像、文字、音訊等多模態聯合理解與生成能力。它引入了深度思考能力,能夠進行複雜問題的逐步推理,並整合了百度自研的iRAG檢索增強技術。
透過「深度搜尋」功能,文心4.5可以自動檢索外部知識以回答使用者問題,顯著降低了幻覺率,這也是百度迎戰DeepSeek的底氣所在。
在價格方面,百度也正在開始加碼。前幾天的百度AI開發者大會上發布的文心4.5Turbo,相比於文心4.5價格下降80%,每百萬token的輸入輸出價格僅為DeepSeek V3的40%。 DeepSeek的成本優勢正在大廠們的面前蕩然無存。
位元組跳動為了應對DeepSeek的競爭,則將自身的產品重心放在了多模態上。從旗下火山引擎團隊於2024年5月首次對外全面介紹了代號「豆包」的大模型家族,一口氣亮相了9個模型開始,豆包就著重多模態模型上的發展。
與其他廠商喜歡強調模型參數和基準測試成績不同,位元組刻意淡化參數規模與榜單,轉而突出實際落地效果和低使用門檻,力求讓大模型真正融入多樣化的實際場景。
本月中旬,豆包1.5深度思考模型上線,除了在數學推理、程式設計競賽、科學推理等專業領域上表現超越DeepSeek R1之外,最大的亮點是Doubao-1.5-thinking-pro-vision具備了視覺推理理解能力,同時豆包文生圖模型3.0版本發布,進一步豐富了多模態生態。
在位元組跳動的多模態策略背後,是敏銳感知到了大模型從技術概念轉向產品概念的路徑。後DeepSeek R1時代裡,單純追求參數規模與技術指標的提升已不足以建構產品護城河了。
位元組跳動帶著這家宇宙大廠的“互聯網基因”,加入了大模型競爭。多模型並進確保了其在文字、語音、圖像各方面全面開花;極低價格和廣泛產品植入為其贏得了規模和數據。
總的來看,除了單純的專業領域的基準測試刷分之外,價格、響應、多模態都已經成了各大廠商應對DeepSeek競爭的有力武器。當基礎語言對話能力難以拉開差距時,各大廠用產品思維找到了快速突圍DeepSeek的差異化功能。
開源生態的長短期利益結合
隨著DeepSeek、Llama、Qwen、智譜在開源生態建構上付出了越來越多的努力,開源已經成為主流路線之一。過去大廠傾向於閉源謀利,而如今開源被證明是贏得生態和快速迭代的有效途徑。 DeepSeek進一步刺激了大廠擁抱開源生態的決心,阿里全面開源千問證明了「模型開源是AI時代的主題」。
不難看出,國內大模型正走向一個比拼綜合實力和效率的時代,而不再僅以參數和單點性能論英雄。
Qwen3、DeepSeek以及騰訊、百度、位元組的各種「模型」迭代實踐,折射出了一種轉變:大家都在追求更高的性價比——既要性能足夠好,又要成本足夠低、應用足夠廣。
可以說,我們正在進入AI的下半場。
OpenAI的研究員姚順雨前段時間曾發長文,探討AI的下半場該專注於哪裡:“從現在開始,AI將從解決問題轉向定義問題。為了在’下半場’蓬勃發展,人們需要及時轉變思維方式和技能,更接近產品經理的水平。”
根據晚點訪談,阿里雲CTO、通義實驗室負責人周靖人對於開源大模型的戰略意義:首先,模型作為核心生產要素,開源能加速其普及,推動產業快速發展;其次,開源已成為大模型創新的重要驅動力。
可以預見的是:國內大模型的落地方向將更貼近實際應用,不再只是實驗室裡的模型比拼。這也給了開源大模型的參數效率、推理成本一個更激烈的競爭區域。