Qwen開源首個長文本新模型百萬Tokens處理效能超GPT-4o-mini
談到大模型的“國貨之光”,除了DeepSeek之外,阿里雲Qwen這邊也有新動作——首次將開源Qwen模型的上下文擴展到1M長度。

具體而言,這次的新模型有兩個「杯型」:
- Qwen2.5-7B-指令-1M
- Qwen2.5-14B-指令-1M
它們在處理長文字任務中都已經實現穩定超越GPT-4o-mini,並且在處理百萬級長文字輸入時可實現近7倍的提速!
(百萬Tokens長文本,如果換算來看的話,可以是10本長篇小說、150小時演講稿或3萬行程式碼。)

目前,Qwen新模型相關的推理架構和技術報告等內容都已發布。
接下來,我們就來繼續深入了解。

模型性能
首先,讓我們來看看Qwen2.5-1M系列模型在長上下文任務和短文本任務中的表現表現。
在上下文長度高達100萬Tokens的「大海撈針」 式任務-Passkey Retrieval(金鑰檢索)中,Qwen2.5-1M系列模型展現出卓越性能,能夠精準地從長度為1M的文檔裡檢索出隱藏訊息。
值得一提的是,在整個系列模型中,僅有7B模型出現了為數不多的錯誤。

對於更複雜的長上下文理解任務,研究團隊選擇了RULER、LV-Eval和LongbenchChat等測試集。

綜合這些結果來看,可以得到的關鍵結論如下:
一方面,Qwen2.5-1M系列模型相比之前的128K版本有显著进步。
在多數長上下文任務場景中,它表現更為出色,特別是應對超過64K長度的任務時,能夠更有效地處理訊息,展現出相較於128K版本更強的適應性與處理能力。
另一方面,Qwen2.5-14B-Instruct-1M模式具備一定優勢。
在與Qwen2.5-Turbo以及GPT-4o-mini的比較中,此模型在多個資料集上的評量成績更為突出。
這意味著,在現有的長上下文模型可選範圍內,它作為開源模型,能夠為用戶提供一種性能相對可靠、可替代其他產品的選擇,不過不同模型都有各自的特點與適用場景,仍需依據具體需求進行判斷。
除了長序列任務的表現外,我們同樣關注這些模型在短序列上的表現。
團隊在廣泛使用的學術基準測試中比較了Qwen2.5-1M系列模型及之前的128K版本,並加入了GPT-4o-mini進行比較。

由此可以發現:
- Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任務上的表現與其128K版本相當,確保了基本能力沒有因為增加了長序列處理能力而受到影響。
- 與GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任務上實現了相近的性能,同時上下文長度是GPT-4o-mini的八倍。
如何煉成的?
在介紹完效能之後,我們來看看Qwen新模型背後的關鍵技術。
主要可分為三大步驟,它們分別是長上下文訓練、長度外推和稀疏注意力機制。

長序列的訓練需要大量的運算資源,因此團隊採用了逐步擴展長度的方法,在多個階段將Qwen2.5-1M的上下文長度從4K擴展到256K:
- 團隊從預先訓練的Qwen2.5的一個中間檢查點開始,此時上下文長度為4K。
- 在預訓練階段,團隊逐步將上下文長度從4K增加到256K,同時使用Adjusted Base Frequency的方案,將RoPE基礎頻率從10,000提高到10,000,000。
在監督微調階段,團隊分兩個階段進行以保持短序列上的效能:* 第一階段:僅在短指令(最多32K長度)上進行微調,這裡我們使用與Qwen2.5的128K版本相同的數據和步驟數,以獲得類似的短任務表現。
- 第二階段:混合短指令(最多32K)和長指令(最多256K)進行訓練,以實現在增強長任務的表現的同時,保持短任務上的準確率。
在強化學習階段,團隊在短文本(最多8K長度)上訓練模型。團隊發現,即使在短文本上進行訓練,也能很好地將人類偏好對齊表現泛化到長上下文任務中。
透過以上訓練,最終獲得了256K上下文長度的指令微調模型。

在上述訓練過程中,模型的上下文長度僅為256K個Tokens。為了將其擴展到1M ,團隊採用了長度外推的技術。
目前,基於旋轉位置編碼的大型語言模型會在長上下文任務中產生效能下降,這主要是由於在計算注意力權重時,Query和Key之間的相對位置距離過大,在訓練過程中從未見過。
為了解決這個問題,團隊引入了Dual Chunk Attention (DCA),該方法透過將過大的相對位置,重新映射為較小的值,從而解決了這個難題。
結果表明,即使是僅在32K長度上訓練的Qwen2.5-7B-Instruct,在處理1M上下文的Passkey Retrieval任務中也能達到近乎完美的準確率。
这充分展示了DCA在无需额外训练的情况下,也可显著扩展支持的上下文长度的强大能力。

最後,便是稀疏注意力機制。
對於長上下文的語言模型,推理速度對使用者體驗至關重要。為此,團隊引入了基於MInference的稀疏注意力優化。
在此基礎上,研究人員也提出了一系列改進:包括分塊預填、整合長度外推方案、稀疏性最佳化等。
透過這些改進,團隊的推理框架在不同模型大小和GPU設備上,處理1M長度輸入序列的預填充速度提升了3.2倍到6.7倍。
最後,該專案已經提供了線上體驗的地址,有興趣的夥伴可以去嚐鮮了~
HuggingFace體驗網址:
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
魔塔社群體驗地址:
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
技術報告:
參考連結: