阿里通義千問新一代端到端旗艦模型Qwen2.5-Omni發布
北京時間週四凌晨,阿里巴巴發布通義千問系列的最新旗艦模型Qwen2.5-Omni。這款端對端多模態模型專為廣泛的多模態感知設計,能夠處理文字、影像、音訊和視訊等多種輸入,同時能夠透過產生文字和合成語音提供即時串流回應。
根據「通義千問Qwen」官方微訊號介紹,這款模型的主要特點如下:
全能創新架構:Qwen團隊提出了一種全新的Thinker-Talker架構,這是一種端到端的多模態模型,旨在支援文字/圖像/音訊/視訊的跨模態理解,同時以串流方式產生文字和自然語音回應。 Qwen提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),透過時間軸對齊實現視訊與音訊輸入的精準同步。
即時音視訊交互:架構旨在支援完全即時交互,支援分塊輸入和即時輸出。
自然流暢的語音生成:在語音生成的自然性和穩定性方面超越了許多現有的串流和非串流替代方案。
全模態性能優勢:在同等規模的單模態模型進行基準測試時,表現出卓越的性能。 Qwen2.5-Omni在音訊能力上優於類似大小的Qwen2-Audio,並與Qwen2.5-VL-7B保持同等水平。
卓越的端對端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文字輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。
Qwen2.5-Omni採用Thinker-Talker雙核心架構。 Thinker模組如同大腦,負責處理文本、音頻、視頻等多模態輸入,生成高層語義表徵及對應文本內容;Talker 模組則類似發聲器官,以流式方式接收Thinker實時輸出的語義表徵與文本,流暢合成離散語音單元。 Thinker 基於Transformer 解碼器架構,融合音訊/影像編碼器進行特徵提取;Talker則採用雙軌自回歸Transformer 解碼器設計,在訓練和推理過程中直接接收來自Thinker 的高維表徵,並共享全部歷史上下文訊息,形成端到端的統一模型架構。

模型架構圖
模型性能方面,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態下的表現都優於類似大小的單模態模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模態任務OmniBench,Qwen2.5-Omni達到了SOTA的表現。此外,在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音辨識(Common Voice)、翻譯(CoVoST2)、音訊理解(MMAU)、影像推理(MMMU、MMStar)、視訊理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。

該模型現已在Hugging Face、ModelScope、DashScope 和GitHub上開源開放。