不用英偉達GPU的華為盤古Ultra來了:昇騰原生、135B稠密通用大模型
終於,華為盤古大模型系列上新了,而且是昇騰原生的通用千億級語言大模型。我們知道,如今各大科技公司紛紛發表百億、千億級模型。但這些大部分模型訓練主要都依賴英偉達的GPU。而現在的情況下,國內研究團隊很難獲得足夠的計算資源,也限制了國內大模型技術的快速發展。

我們看到華為盤古發布的這篇新研究,證明了基於全國產的昇騰也可以實現領先的大規模語言模型的研究與開發。

技術報告標題:Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
技術報告網址:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf
研究稱華為盤古團隊成功開發出基於昇騰算力訓練的千億級通用語言大模型Pangu Ultra。在效果上,Pangu Ultra 在多個領域和評測上超越先前Llama 405B 和Mistral Large 2 等稠密模型,並可以與DeepSeek-R1 等更大規模的稀疏模型一較高下。
Pangu Ultra 是一個擁有94 層架構、總參數量達135B 的超大稠密模型。針對超深千億級大模型的訓練穩定性問題,研究團隊提出了新的穩定性架構和初始化方法,成功實現了在13.2T 高品質資料上的全流程無loss 突刺長穩訓練。同時,在系統實現層面,團隊透過一系列系統優化策略,在8192 張昇騰NPU 建構的大規模集群上將算力利用率(MFU)提升至50%。
接下來,讓我們從模型架構、模型訓練等方面,詳細了解下Pangu Ultra 的技術細節。
模型架構
基礎架構資訊:Pangu Ultra 包含1,350 億參數、採用了94 層的Transformer 結構。其中FFN 採用SwiGLU 活化。注意力層採用GQA 降低KV 快取佔用。
Pangu Ultra 針對大規模極深模型的訓練穩定性問題提出了Depth-scaled sandwich-norm 和TinyInit 初始化兩項技術。
Depth-scaled sandwich-norm:與混合專家模型(MoE)著重在寬度上擴展不同,大規模稠密模型通常採用更深的層數。然而,深度增加會加劇訓練穩定性的挑戰。考慮到預訓練的巨大成本,確保大模型的穩定訓練至關重要。
Pre-LN 在基於Transformer 的大語言模型架構中被廣泛應用,但採用Pre-LN 的模型中,各子層輸出尺度的波動容易導致訓練不穩定。為解決此問題,Sandwich-Norm 在殘差連接前對每個子層輸出額外施加layer norm。雖然Sandwich-Norm 能維持單一子層輸出的尺度穩定性,但跨越多層的殘差連結仍會導致輸出範數逐漸累積,進而引發訓練不穩定。
為此,Pangu Ultra 提出Depth-Scaled Sandwich-Norm(DSSN)。此技術透過對每個子層輸出的layer norm 的gamma 參數來調控各層輸出尺度,透過將gamma 參數初始化為與網路深度的平方根倒數成比例。下圖展示了Depth-Scaled Sandwich-Norm 與Pre-LN 架構的差異。實驗結果顯示所提出方法相比基準方法在穩定性和收斂性都具有較大優勢(見模型結果與分析)。

Pre-LN 與DSSN 架構比較。比起Sandiwich norm,DSSN 對layer norm 係數做了特別的re-scale
TinyInit: 模型初始化對訓練穩定性和效能有關鍵影響。基於Transformer 的大語言模型普遍採用small init 策略,即所有權重初始化為標準差為

的常態分佈。另外有工作將殘差層權重在初始化時縮放

雙倍的。
Pangu 提出了同時根據模型深度和寬度縮放的參數初始化策略TinyInit,所有權重初始化標準差

,能加速loss 收斂並提升下游任務表現。 TinyInit 能讓模型各部分的參數尺度更一致,進而有利於最佳化與收斂(見模型結果與分析)。
Pangu Tokenizer:在Pangu Ultra 的中,作者優化了分詞器(Tokenizer)。傳統方法在建構詞彙表時,常因資料分佈導致通用文本佔比過高,而程式碼、數學等專業領域的詞元代表性不足。為解決此問題,Pangu Ultra 採用了「領域感知」的分詞詞表策略:
對通用中文、通用英文、程式碼、數學等多個關鍵領域的資料獨立進行詞頻分析,產生領域專屬詞彙表。
隨後,將這些詞彙表合併與去重,形成了一個包含153376 詞元的分詞詞表。
這種方法提升了詞彙表在不同領域間的均衡性,確保了模型在處理文本、程式碼、數學等多樣化任務時,都能獲得更精準、高效的理解基礎,同時保持了良好的整體壓縮效率。

各領域詞在Pangu 詞表中的分佈
模型訓練
預訓練策略與資料:Pangu Ultra 的預訓練過程的三個階段:12T tokens 的通用能力訓練、0.8T tokens 的推理能力增訓以及0.4T tokens 的退火階段。

Pangu Ultra 預訓練各階段的資料配比
Pangu Ultra 模型的預訓練語料涵蓋了高品質、多樣化的13.2T tokens,如上表所示,整個預訓練過程分為三個階段:通用階段(General)、推理階段(Reasoning)和退火階段(Annealing)。
通用階段(12T)旨在幫助模型累積知識和語言表達能力,推理階段(0.8T)旨在強化模型推理技能,而退火階段(0.4T)則進一步教導模型如何運用已學到的知識和推理技能。
團隊為訓練語料打了品質與難度的標籤分數,並在上述三個階段中採用課程式的資料採樣策略,即完成一個從易到難的學習過程:
通用階段涵蓋了大量的書籍、網頁、百科、多語言以及各行各業的語料,實際訓練中分成了兩個子階段,訓練量分別為7.4T 和4.6T tokens;
推理階段重點在於提升泛數學、理科、程式碼資料的比重,強推理資料佔超過60%;
退火階段將指令類資料佔比提高到20%,旨在激發模型更好的應用知識和推理技能。團隊設計了大量的指令類問答對,並且包含長、短思維鏈,這些推理路徑經過精心優化,以確保內容清晰且邏輯連貫。
資料品質評估是提升模型訓練效果的核心環節,Pangu Ultra 結合規則篩選與AI 評估最佳化資料品質。團隊設計人工標註數據,微調盤古系列模型作為品質評估器,從數據乾淨度、流暢性、教育價值和資訊密度四個維度,對超過10T 語料進行打分,並且賦予高品質語料更高的採樣機率。
團隊基於Pangu 26 億參數的代理模型進行了大量的消融實驗,結果顯示基於低品質資料訓練的模型需要多1.6 倍訓練量才能達成基於高品質資料的同等效果,進一步印證了資料品質對於提升訓練效率的關鍵價值。
長序列擴展:Pangu Ultra 模型透過兩階段長度擴展訓練將可支援的輸入token 數增加到128K,可以輸入約10 萬個英語單字或17 萬中文漢字。針對長序列訓練中RoPE 基礎頻率這一重要參數,在訓練前先在目標擴展長度的特定驗證集上對不同的參數進行評測來搜尋出最優的參數,保證了長度擴展的效果。
後訓練策略與資料:在模型後訓練階段,透過兩階段優化實現能力躍升:首先採用監督微調(SFT)建立基礎指令跟隨能力,隨後引入基於結果的強化學習(RL)框架,顯著提升模型的複雜推理、價值對齊和指令執行能力。為充分發揮昇騰算力優勢,研究團隊特別設計了具有延遲容忍特性的強化學習框架,配合融合確定性訊號與模型評估的混合獎勵系統,在數學推導、程式碼產生和通用問題解決三大領域建立精準回饋機制,確保大規模策略優化的效率與穩定性。
模型在AIME 2024、MATH-500、GPQA Diamond 和LiveCodeBench 等核心推理基準上取得了理想的性能,驗證了後訓練架構的有效性,這既得益於預訓練階段0.8T 規模的專項推理資料積累,也源於強化學習階段對模型潛力的深度激發。同時模型仍保持強大的通用語言理解能力(MMLU-pro 和ArenaHard),彰顯了技術路徑的均衡性,結果見模型結果與分析部分。
系統最佳化
Pangu Ultra 135B 的訓練環境是一個配備了8192 個昇騰NPU 的大規模計算集群。團隊透過混合平行策略、細粒度負載平衡調優、高效融合算子、子序列切分以及資料快取共享等技術手段,在8192 卡規模的叢集中實現了超過50% 的MFU(Model FLOPs Utilization)。
平行策略:為了擴展Pangu Ultra 的訓練規模並提升叢集線性度,團隊採用了混合平行策略。在8192 卡規模的集群中,使用了128 路資料並行(Data Parallelism)、8 路張量並行(Tensor Parallelism)和8 路流水線並行(Pipeline Parallelism),同時結合了ZeRO 和序列並行(Sequence Parallelism),以降低模型參數、顯化狀態和啟動狀態。由於batch-size 的限制,大規模集群訓練中每個資料並行(DP)組的批次較小,導致較高的管線空泡率。為解決這個問題,團隊引入了6 路虛擬管線(Virtual Pipeline)調度演算法,將訓練空泡率從30.45% 降至6.8%。透過一系列精細的負載平衡優化,在BF16 訓練精度下實現了43% 的MFU。
系統優化:為了進一步提升大規模集群的訓練效率,團隊從多個方面進行了系統優化,將8192 卡訓練的MFU 從43% 提升至52%。關鍵優化技術包括:
MC2(合併計算與通訊)
透過將訓練中的矩陣乘法(MatMul)計算與張量並行(TP)切分引入的通訊操作細粒度拆分,並對計算和通訊操作進行深度管線編排,實現了通訊與矩陣乘法的高效重疊,顯著提升了資源利用率和訓練效率。
NPU融合注意力機制(NFA)
針對昇騰NPU 優化的自註意力(Self-Attention)融合算子,支援Attention Mask 壓縮,避免了明確構造Attention Mask 帶來的計算和顯存開銷。在Pangu Ultra 訓練中,根據每個樣本的結束標記(EOD)計算出實際序列長度(actual_seq_len),並將其傳入NFA。 NFA 內部使用一個2048×2048 的下三角矩陣作為素材庫,根據actual_seq_len 動態構造訓練時的Attention Mask,從而在重置Attention Mask 的場景下實現高效的自註意力計算。
其他融合算子
除了MC2 和NFA,訓練也採用了RMSNorm、SwiGLU、RoPE 融合算子、梯度累加融合以及PP send/recv 融合等技術,進一步提升了系統效能。
子序列切分
情境並行(Context Parallelism,CP)是長序列訓練中常用的最佳化方法。為了實現CP 切分下的負載平衡,Megatron-LM 將序列切分為2×CP 個子序列,每個設備負責計算上下兩個chunk 的資料(見圖1.(b))。然而,這種切分方式在重置Attention Mask 的場景下仍會導致負載不均(見圖1.(c))。 Pangu Ultra 採用了改進的子序列切分平行方式,針對每個樣本中的子序列採用負載平衡的切分策略,每個節點負責計算子序列中的兩個chunks(見圖1.(d))。

圖1. 子序列切分的序列平行方式
顯存優化
允許同一計算設備上的不同vpp stage 之間共用attention mask/actual_seq_len,RoPE sin/cos, position embedding 等資料。避免重複的計算和顯存開銷。
模型結果與分析
Pangu Ultra 實現了昇騰近萬卡大集群上約13T 資料的長穩訓練,DSSN 和TinyInit 保障訓練全程沒有出現任何loss 突刺,如下圖:

Pangu Ultra 預訓練Loss,全流程無loss 突刺
Pangu Ultra 的預訓練基座模型評量結果如下。對比稠密架構的代表Qwen2.5-72B 和Llama 405B 以及MoE 架構的代表DeepSeek V3。 Pangu Ultra 在大多數benchmark 上取得了最好的效果,和同為稠密架構的模型對比優勢更加明顯。

Pangu Ultra Base 評估結果,粗體顯示最佳結果,下劃線表示模型在dense 中最好
經過後訓練之後,Pangu Ultra 在主要的Reasoning benchmark 上的表現如下所示。

Pangu Ultra 在Reasoning Benchmarks 上的表現
Pangu Ultra 在AIME24,MATH-500,GPQA,MMLU-Pro 等指標上超越DeepSeek R1。關於盤古後訓練使用的相關技術將在之後的報告中發布。
針對訓練穩定性,團隊發現DSSN 和常見的Pre-Norm(Pre-LN)架構對比能夠完全杜絕訓練中的loss 突刺現象。在gradient norm 上,使用DSSN 的模型也較為平穩,突刺較少。經過評估,DSSN 架構的模型效果也超越Pre-LN 架構,說明避免訓練突刺的重要性。

DSSN 與Pre-LN 的訓練對比

DSSN 架構和Pre-LN 架構的評估效果對比
使用Sandwich-Norm 架構時,RMSNorm 的affine 參數gamma 初始化非常重要,研究提出的DSSN 方案與普通Sandwich-Norm 架構對比訓練loss 也更加平穩,且收斂較快,如下圖所示。

DSSN 對比普通Sandwich-Norm
關於TinyInit,團隊在135B 的模型規模上訓練了約100B tokens,和經典基線初始化方案相比取得了較為明顯的優勢。

TinyInit 對比普通初始化的模型測評效果