DeepSeek上新Prover-V2-671B新開源模型發布
DeepSeek 在AI 開源社群Hugging Face 發布了一個名為DeepSeek-Prover-V2-671B 的新模型。根據介紹,DeepSeek-Prover-V2-671B 其參數量達到6710億,使用了更有效率的safetensors 檔案格式,並支援BF16、FP8、F32 等多種運算精度,方便模型更快、更省資源地訓練和部署。
在模型架構上,模型使用了DeepSeek-V3架構,採用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。
同時支援超長上下文,最大位置嵌入達163840,使其能處理複雜的數學證明,並且採用了FP8量化,可透過量化技術減小模型大小,提高推理效率。
有網友分析,模型被視為Prover-V1.5的升級版,專注於形式化定理證明,專門用於攻克數學難題,擅長自動證明定理和複雜計算,類似於AlphaGo 在圍棋中的自我對弈方式。
接下來它的效能測試表現會如何,值得期待。


