楊植麟發表Kimi新模型:數學對標o1 中考高考研成績全第一
kimi全面開放一週年之際,創辦人楊植麟親自發表新模型-數學模型k0-math,對標OpenAI o1系列,主打深入思考。在MATH、中考、高考、考研4個數學基準測試中,k0-math成績超過o1-mini和o1-preview。
在demo展示中,k0-math思考過程全面展示,解題過程可能會非常長。
它會一邊自言自語“我卡住了”,一邊不斷嘗試用各種想法。
當前時間 0:00
/
持續時間 1:26
自動播放
以下面這道AIME競賽題目為例,k0-math透過不斷探索與試錯,嘗試了八、九次做法後,最終得出了正確結果。
楊植麟現場直言,很簡單的問題有時它也會反覆思考。
例如遇到簡單的“ 1+1等於幾”,它要“先可視化一下”,“再檢查一遍”、“用數學方式來確認”、“再用另一種方法來驗證”,最終才能“信心滿滿」得出最終答案1+1=2:
再例如4046/476等於多少,它其實一開始就得到了答案,但又進行反思經過一系列驗證推出等於8.5:
在楊植麟看來,這是一個機遇,也是一個限制。預計在下一階段的模型迭代中,會逐步改善這個問題,讓模型能夠自己知道何時需要深入思考。
發布k0-math也反映出月之暗面現在的重點-提升模型的深入思考能力、基於強化學習的Scaling Law。
楊植麟表示最近Kimi探索版也運用強化學習技術創新搜尋體驗,提升了意圖增強、信源分析和鍊式思考三大推理能力。
k0-math模型和更強的Kimi探索版,未來幾週將分批陸續上線Kimi網頁版和Kimi智能助手APP。
除新產品外,楊植麟現場還一併回答了大夥兒感興趣的諸多問題,包括接下來的研發重點、對多模態的看法、預訓練情況等。
Kimi探索版推理能力提升
Kimi探索版意圖增強能力提升,指的是它可以將抽象的問題和模糊的概念具體化,拓展用戶的真實搜尋意圖。
例如,當網路產品經理研究某產品的使用者忠誠度,Kimi探索版會思考當使用者搜尋「忠誠度」時,本質上是想做數據的分析,然後找到可以體現忠誠度的維度,將這個比較模糊和抽象的概念,轉化為更具體的「活躍度、留存率、使用頻率、使用時長」等關鍵字。
然後透過機器更擅長的海量並行搜索,找出更全面和準確的答案。
Kimi 探索版信源分析能力也有所提升,會從大量的搜尋來源結果中,分析篩選出更具權威性和可靠性的信源。
現在在答案中還提供溯源連結了,可一鍵定位信源具體出處,精確到段落級別,讓條資訊都有據可查。
最後鍊式思考能力提升,指的是Kimi探索版可以更好地基於思維鏈推理能力處理產品、公司、產業等研究問題。
例如,當程式設計師做技術選型,想要了解「react中有哪些狀態管理函式庫,最好用的是什麼」。
Kimi首先會拆解問題,找到react的狀態管理庫有哪些,然後分別搜索每個狀態管理庫的優缺點、使用場景和推薦理由,最後分析總結找到的所有高質量信息,推荐一個最適合大多數情況的狀態管理庫和理由。
“思考決定模型上限”
Q:強化學習過程中,如何解決數據、算力、演算法平衡問題?
A:我覺得AI的發展就是一個盪鞦韆的過程,你會在兩種狀態之間來回切換。
一種狀態是演算法、數據非常ready,但算力不夠。所以你要做的事情就是做更多的工程,把infra做得更好,它就能夠持續的提升。
我覺得其實從transformer誕生到GPT-4,更多的矛盾就是怎麼能夠Scale,但可能在演算法和資料上沒有本質的問題。
今天當Scale差不多的時候,你會發現我再加更多的算力,並不一定能直接解決這個問題,核心是因為你沒有高質量的數據,小幾十G的token是人類互聯網積累了20多年的上限。
這時候要做的事情,就是透過演算法的改變,讓這個東西不要變成瓶頸。現在可以理解成我們遇到的問題或整個產業遇到的問題,也許你直接加更多的卡它不一定能看到直接的提升,所以你要透過這個方式的改變讓它把這個東西釋放出來。
所有的好演算法就是跟Scaling當朋友,如果你的演算法能夠釋放Scaling的潛力,它就會持續變得更好。
我們從很早就開始做強化學習相關的東西,我覺得這個也是接下來很重要的一個趨勢,透過這種方式去改變你的目標函數,改變你的學習的方式,讓它能持續的Scale。
Q:非transformer會不會解決這種問題?
A:不會,因為它本身就是學習演算法或沒有學習目標的問題。
Q:你們這個產品如果一兩週之後放到Kimi探索版裡,用戶可以選擇使用,還是你們會根據用戶的提問來分配是否用這個模型?在不同的模式下,每個使用者一段時間內可以使用幾次?而目前Kimi主要的收入是在打賞,不是付費訂閱,你們怎麼平衡成本問題?
A:我們接下來的版本大機率會讓使用者自己去選擇。
早期透過這種方式可以更好地分配或更好地滿足用戶的預期,我們也不想讓它1+1等於多少,想半天。
所以我覺得早期可能會用這樣的方案。
但我覺得這裡面最終可能還是一個技術問題。兩個點,一個點是能夠動態的給它分配最優的算力。如果模型夠聰明,它應該知道什麼樣的問題需要想多久,就跟人一樣,不會1+1也想半天。
我們現在已經一定程觀察到度簡單的問題它的思考時間也會更短,但是可能還不是最優,這是我們透過演算法迭代去再提升的。
長期來講我覺得第二個點是成本也不斷下降。比如說今年如果達到去年GPT-4模型的水平,可能只需要十幾B的參數就能做到,去年可能需要一百多B。
Q:你們預訓練的狀況現在是怎麼樣的?你著重講了Scaling Law,比較好奇像你這麼聰明的人會不會被Scaling Law這個事情限制住?
A:我先說第一個問題,我覺得預訓練還有空間,半代到一代的模型。這個空間會在明年釋放出來,明年我覺得領先的模型會把預訓練做到一個比較極致的階段,今天比如說我們去看最好的模型它大概有這樣的空間可以去壓榨。
但是我們判斷接下來最重點的東西會在強化學習上,就是範式上會產生一些改變。但它還是Scaling,並不是它不用Scale,只是說你會用不同的方式去Scale,這是我們的判斷。
你說Scaling law會不會是一個天花板或是上限,這個相對來說我比較樂觀一點。
核心就在於原來你用靜態資料集,靜態資料集其實是比較簡單粗暴的使用方式,現在用強化學習的方式很多情況下是有人在參與這個過程的,但是人沒有辦法給你標註那麼多數據,不可能把每題具體的想法都標出來,所以你其實用AI本身把人的東西加上一個槓桿。
比如說你標100條數據,就能產生非常大的作用,因為剩下的都是它在自己思考,我覺得更多的會用這種方式去解決。
具體從做法來看,我覺得確定性是比較高的,很多時候是真正把它調出來的過程,所以我現在覺得這個大機率可以透過這種方式去做出來,所以我覺得它上限是很高的。
Q:想問一下多模態的問題,Sora大概馬上要發了。
A:我們也做,幾個多模態的能力在內測。
我是這樣看的,我覺得AI接下來最重要的是思考和互動這兩個能力。思考的重要性遠大於交互,不是說交互不重要,我覺得思考會決定上限,交互我覺得是必要條件,比如說vision的能力,如果沒有vision的能力沒法做交互。
所以我覺得它兩個不太一樣,就看要做這個任務標註任務的難度有很大,到底需要一個博士去標,還是每個人都可以標,哪個東西更難找到這樣的人,那個東西就是AI的上限。
所以我覺得多模態一定是必要的,但我覺得是思考決定它的上限。