小米開源首個推理大模型Xiaomi MiMo
小米開源首個為推理(Reasoning)而生的大模型’Xiaomi MiMo’,聯動預訓練到後訓練,全面提升推理能力。據介紹,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用7B 的參數規模,超越了OpenAI 的閉源推理模型o1-mini 和阿里Qwen 更大規模的開源推理模型QwQ-32B-Preview。

隨著DeepSeek-R1引發業界強化學習(RL)共創潮,DeepSeek-R1-Distill-7B和Qwen2.5-32B已成為廣泛使用的強化學習起步模式。在相同RL訓練資料情況下,MiMo-7B 的數學&程式碼領域的強化學習潛力顯著領先。
值得注意的是,MiMo-7B全系列模型均已開源。據了解,MiMo 來自小米全新成立不久的「小米大模型Core團隊」的初步嘗試。