Kimi視覺思考模型k1發布：數理化超越OpenAI o1、GPT-4o

今日，月之暗面國產大模型Kimi發布視覺思考模型k1，k1基於強化學習技術打造，原生支持端到端圖像理解和思維鏈技術，並將能力擴展到數學以外的更多基礎科學領域。 k1已陸續上線最新版Kimi智慧助理的Android和iPhone APP以及網頁版kimi.com。

在最新版手機APP或網頁版Kimi+專頁找到Kimi視覺思考版，即可拍照或傳圖體驗。

據了解，在數學、物理、化學等基礎科學學科的基準能力測試中，初代k1模型的表現超過了全球標竿模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。

官方表示，K1模型真正意義上實現了端到端的圖像理解和思考能力，模型可以直接處理用戶輸入的圖像資訊並進行思考得出答案，不需要藉助外部的OCR或額外視覺模型進行資訊處理。

從模型訓練的角度來看，k1的訓練分為兩個階段，先透過預訓練得到基礎模型，再在基礎模型上進行強化學習後訓練。

k1的基礎模型重點優化了字元辨識能力，在OCRBench上得到903分的目前最好（state-of-the-art）結果，在MathVista-testmini、MMMU-val 和DocVQA基準測試集上分數分別為69.1 、66.7和96.9，處於全球第一梯隊水準。

根據介紹，k1的強化學習後訓練在資料品質和學習效率方面做了進一步優化，在強化學習的規模化（scaling）上取得了新的突破，這是k1視覺推理模型在基準測試中取得業界領先成績的最關鍵原因。

月之暗面坦言，在內部測試中也發現了一些k1視覺思考模型存在的局限性，例如在分佈外（out-of-distribution）的泛化、在更複雜問題上的成功率、在更多噪音場景的準確率、多輪問答效果等方面，有很大提升空間。

在一些場景和泛化能力上，k1模型與OpenAI的o1系列模型相比仍有差距。

WONGCW 網誌