Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

阿里發布並開源Qwen3 無縫整合思考模式、多語言、便於Agent調用

阿里發布並開源Qwen3 無縫整合思考模式、多語言、便於Agent調用

2025-04-29 Comments 0 Comment

阿里巴巴週一發布並開源通義千問3.0(Qwen3)系列模型,並稱其在數學和程式設計等多個方面均可與DeepSeek的性能相媲美。與其他主流模式相比,Qwen3也顯著降低了部署成本。阿里表示,Qwen3無縫整合兩種思考模式,支援119種語言,方便Agent呼叫。

效能媲美DeepSeek R1、OpenAI o1,全部開源

Qwen3系列包括兩個專家混合(MoE) 模型和另外六個模型。阿里巴巴表示,最新髮型的旗艦模型Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力。

此外,被稱為「專家混合」(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的活化參數數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的表現。這類系統模擬人類解決問題的思考方式,將任務分成較小的資料集,類似於讓一組各有所長的專家分別負責不同部分,進而提升整體效率。

同時,阿里巴巴也開源了兩個MoE模型的權重:擁有2350多億總參數和220多億激活參數的Qwen3-235B-A22B,以及擁有約300億總參數和30億激活參數的小型MoE 模型Qwen3-30B-A3B。此外,六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。

「混合型」模型,兩種思考模式

阿里巴巴表示,Qwen 3系列是「混合型」模型,既可以花時間「推理」解決複雜問題,也可以快速回答簡單請求,分別稱為「思考模式」和「非思考模式」。「思考模式」中的推理能力使得模型能夠有效地進行自我事實核查,類似於OpenAI的o3模型,但代價是推理過程中的延遲時間較高。

Qwen團隊在部落格文章中寫道:

這種靈活性使用戶能夠根據具體任務控制模型進行「思考」的程度。例如,複雜的問題可以透過擴展推理步驟來解決,而簡單的問題則可以直接快速作答,無需延遲。

至關重要的是,這兩種模式的結合大大增強了模型實現穩定且高效的「思考預算」控制能力。如上文所述,Qwen3展現出可擴展且平滑的效能提升,這與分配的計算推理預算直接相關。

這樣的設計讓使用者更容易為不同任務配置特定的預算,在成本效益和推理品質之間達到更優的平衡。

訓練資料量是Qwen2.5的兩倍,便於Agent調用

阿里巴巴表示,Qwen3系列支援119種語言,並基於近36兆個token(標記)進行訓練,使用的資料量是Qwen2.5的兩倍。 Token是模型處理的基本資料單元,約100萬個token相當於75萬個英文單字。阿里巴巴稱,Qwen3的訓練資料包括教材、問答對、程式碼片段等多種內容。

據介紹,Qwen3預訓練過程分為三個階段。在第一階段(S1),模型在超過30兆個token上進行了預訓練,上下文長度為4K token。這一階段為模型提供了基本的語言技能和通用知識。

在第二階段(S2),訓練則透過增加知識密集型資料(如STEM、程式設計和推理任務)的比例來改進資料集,隨後模型又在額外的5兆個token上進行了預訓練。在最後階段則使用高品質的長上下文資料將上下文長度擴展到32K token,確保模型能夠有效地處理更長的輸入。

阿里巴巴表示,由於模型架構的改進、訓練資料的增加以及更有效的訓練方法,Qwen3 Dense基礎模型的整體表現與參數較多的Qwen2.5基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分別與Qwen2.5-3B/7B/14B/32B/72B-Base 表現相當。特別是在STEM、編碼和推理等領域,Qwen3 Dense基礎模型的表現甚至超過了更大規模的Qwen2.5 模型。對於Qwen3 MoE基礎模型,它們在僅使用10%激活參數的情況下達到了與Qwen2.5 Dense基礎模型相似的性能,顯著節省了訓練和推理成本。

而在後訓練階段,阿里使用多樣的長思維鏈資料對模型進行了微調,涵蓋了數學、程式碼、邏輯推理和STEM 問題等多種任務和領域,為模型配備基本的推理能力。然後透過大規模強化學習,利用基於規則的獎勵來增強模型的探索和鑽研能力。

阿里巴巴表示,Qwen3在呼叫工具(tool-calling)、執行指令以及複製特定資料格式等能力方面表現出色,推薦使用者使用Qwen-Agent來充分發揮Qwen3的Agent能力。 Qwen-Agent內部封裝了工具呼叫模板和工具呼叫解析器,大大降低了程式碼複雜度。

除了提供下載版本外,Qwen3還可以透過Fireworks AI、Hyperbolic等雲端服務供應商使用。

目標仍對準AGI

OpenAI、Google和Anthropic近期也陸續推出了多款新模型。 OpenAI近日表示,也計劃在未來幾個月發布一款更「開放」的模型,模仿人類推理方式,這標誌著其策略出現轉變,此前DeepSeek和阿里巴巴已經率先推出了開源AI系統。

目前,阿里巴巴以Qwen為核心,建構其AI版圖。今年2月,執行長吳泳銘表示,該公司目前的「首要目標」是實現通用人工智慧(AGI)——即打造具備人類智力水準的AI系統。

阿里表示,Qwen3代表了該公司在通往通用人工智慧(AGI)和超級人工智慧(ASI)旅程中的一個重要里程碑。展望未來,阿里計劃從多個維度提升模型,包括優化模型架構和訓練方法,以實現幾個關鍵目標:擴展資料規模、增加模型大小、延長上下文長度、拓寬模態範圍,並利用環境反饋推進強化學習以進行長週期推理。

開源社群振奮

阿里Qwen3的發布讓AI社群感到激動,有網友獻上經典Meme:

有網友說,

在我的測試中,235B在高維度張量運算的表現相當於Sonnet。

這是一個非常出色的模型,

感謝你們。

有網友對Qwen3讚不絕口:

如果不是親眼看到螢幕上即時產生的tokens,我根本不會相信那些基準測試結果。 ? ? ? ? 簡直像魔法一樣? ? ? ?

而開源AI的支持者則更加興奮。有網友說:

“有了一個開源32B大機型,性能跟Gemini 2.5 Pro不相上下。”

“我們徹底殺回來了!”

網友感謝阿里積極推動開源:

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
波音被標普移出信用評等觀察名單重整旗鼓取得進展
NEXT
川普將宣布措施減輕汽車關稅影響,包括降低對外國零件的部分關稅

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 4 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
282930  
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 微軟裁員風暴:軟體工程崗位成重災區AI搶走程式設計師飯碗? 2025-05-15
  • 星巴克據悉已啟動出售龐大中國業務部分股份的進程 2025-05-15
  • 資料外洩後Valve向Steam用戶保證其係統沒有被入侵 2025-05-15
  • 小米盒子5系列今日開賣:299元起支援4K 2025-05-15
  • 假期3天不調休端午假期火車票即將開售 2025-05-15
  • 網友在馬耳他偶遇劉強東夫婦打扮顯眼被認出 2025-05-15
  • 智慧仿生魚已投入長江保護:模仿魚類遊動進行生態資料採集 2025-05-15
  • 華為折疊PC將在5月19日正式發布 2025-05-15
  • 小鵬全新純電轎跑官宣:還叫P7 2025-05-15
  • DeepMind放出新AI大招:竟能自我糾錯但有致命弱點 2025-05-15

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 76%美國汽車高層認為中國電動車登陸美國是遲早的事
  • Waymo透露第六代無人駕駛計程車細節:成本更低、功能更強
  • NVIDIA對川普的迎合促成了AI技術擴散限制的逆轉以及對華為的進一步壓制
  • 黃仁勳將出席台北電腦展成焦點更多AI合作曝光
  • 英偉達CEO黃仁勳:不會使用人工智慧的人將失業
  • 動視正式起訴《決勝時刻》外掛開發者
  • 騰訊第一季營收1800億元微信及WeChat月活突破14億
  • 一項新的兩黨法案旨在解除美國長達52年的超音速飛行禁令
  • 新《超級瑪利歐兄弟》動畫電影定名《超級瑪利歐世界》

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.