OpenAI發布新模型Sam Altman評論:耐心時刻結束了
OpenAI 突然進行了重大更新。已經預熱了接近一年的Q*/草莓項目,傳說中能夠進行高級推理的大語言模型,今晚終於露出了真面目。OpenAI發推表示,剛推出了OpenAI o1-preview 模型——名字的含義之前外媒已經爆料過,o1 應該代表著OpenAI 下一代大模型的Orion(獵戶座)一代。
OpenAI 在發布文件中寫道,新模型在推理能力上代表了人工智慧能力的新水平,因此,計數器將重置為1 ——這意味著未來很可能不會有GPT-5 了,o1 將代表未來OpenAI的最強水準。
而從今天開始,ChatGPTPlus 和Team 用戶就能夠直接存取模型。
使用者可以手動選擇使用o1 模型的預覽版——o1-preview,或使用o1 模型的小尺寸版——o1-mini。 o1-preview 的每週限制為30 則訊息,o1-mini 的每週限制為50 則。
在OpenAI 的模型介紹網頁上,可以看到o1 模型的訓練資料截止時間為去年十月份,而最早的Q*專案的爆料,正好大概出現在去年十一月份。
OpenAI 憋了一年的大招究竟如何? OpenAI 能否再一次引領大模型的潮流,甚至讓人們看到通用人工智慧之路不再遙遠?很快,每個人都能檢驗這一點了。
Sam Altman 凌晨一點在X 上發文:“需要耐心等待的時刻結束了!”
01. o1 模型:解決博士級的科學問題超越人類
截止發稿時,筆者還不能使用o1 模型。
不過OpenAI 已經放出了大量相關的o1 模型表現展示。
最引人關注的當然是新模型的推理能力。 Sam Altman 直接在X 上貼出了o1 與GPT-4o 在數學、程式設計和解決博士級科學題目上的能力比較。
最左邊的柱形代表目前OpenAI 的主力模型GPT-4o。今天放出來的o1 預覽版為中間的橘色柱形。
可以看到,在2024 年美國數學邀請賽的競賽題和Codeforces 演算法競賽題上,o1 預覽版解決數學和程式設計問題的能力,比起GPT-4o,提升了5-6 倍。而可怕的是,深橙色的柱形,代表真正的o1,相比於GPT-4o,提升了8-9 倍!
在最後一張圖中,OpenAI 也列出了人類專家在解決博士級科學題目的時的成功率,大約在69.7%,而o1 預覽版和o1,都已經超過了人類專家的水平。
OpenAI 的技術部落格提到了更具體的數字,目前o1 模型的成績,在美國數學邀請賽上,可以排名進入美國前500 名。而物理、生物和化學問題上的準確度,超過了人類博士的程度。
在大模型技術進入公眾視野的兩年內,一個經常為人們所使用的比喻是,大模型像一個什麼都懂一點的大學生,在知識專精方面遠遠不行,但是從天文到地理,最基礎的知識都能懂一點點。 OpenAI 的新模型,很有可能要刷新人們的這個認知了。
在官方部落格中,OpenAI 簡單解釋了這項進步背後的原理。
類似於人類在回答難題之前可能會思考很長時間,o1 在嘗試解決問題時會使用一系列思維。透過強化學習,o1 學會了磨練其思維鏈並完善其使用的策略。它學會了認識並糾正錯誤,將棘手的步驟分解為更簡單的步驟。當當前方法不起作用時,它會嘗試另一種方法。這個過程大大提高了模型的推理能力。
在OpenAI 給的案例中。 GPT-4o 和o1 模型同時回答同一個問題──讀一段長文,然後做閱讀理解。在o1 模型中,會多一個選項叫做展開思考鏈。
如果不展開思考鏈,我們可以看到兩個模型本身給的答案是不同的。而打開思維鏈後,會看到一段非常長的模型和自己的思考對話,解釋為什麼做出了不同的選擇。
選A 嗎? emm,好像不是很好。選B 嗎?好像沒有關聯。模型完全在自己和自己提問和回答,最後判斷了哪個答案比較好。
而在另一個例子中,在解決化學問題時,我們可以看到o1 模型甚至自己在選擇多種方案對比。
標準的計算方式是這樣。但我們也可以這麼計算,但這樣或許沒有必要?
在多次糾正自己之後,它得出了正確的答案。
之前,也已經有許多報導透露o1 模型能夠有高推理能力的原理——這一訓練方法,最早來自於史丹佛大學2022 年開發的一種「自學推理」(Self-Taught Reasoner,STaR)。
後來研究人員進一步發展了一種名為”Quiet-STaR”的新技術,翻譯過來大概為”安靜的自學推理”。核心為在每個輸入token 之後插入一個”思考”步驟,讓AI 產生內部推理。然後,系統會評估這些推理是否有助於預測後續文本,並相應地調整模型參數。這也是為什麼人們推測OpenAI 最早的模型項目為什麼叫Q*(讀作Q Star)的原因。
在o1 模型出現之前,使用者通常也可以自己透過和模型對話的方式,讓模型進行一步一步的思考,也就是所謂的慢思考,進行更精確的回答。但很明顯,o1 模型這次將思維鏈放大到了完全不同的量級。
而且,在先前使用者prompt 的引導中,模型能夠回答出什麼答案,最後還要被模型能力限制。而透過不同的訓練方式訓練出來的o1 模型,很有可能能夠透過自己的推理,超越自身訓練材料的限制,產出更高級和準確的答案。
在複雜推理任務上的進步,可能對程式設計和科學研究兩個方向產生直接的推動。
OpenAI 提到,在未來,醫療保健研究人員可以使用o1 來註釋細胞定序數據,物理學家可以使用o1 產生量子光學所需的複雜數學公式,所有領域的開發人員可以使用o1 來建立和執行多步驟工作流程。
OpenAI提供了一個例子,真正做到了只使用提示詞,就完成了一個遊戲的程式設計。
而推理能力的進步,如果能進一步消除模型的幻覺,也可能對AI 應用的建構產生間接的影響。對未來的AI安全也有正面的影響-之前的一些透過提示詞工程誤導模型進行錯誤輸出的手段,可能會直接被模型透過更強的思考能力解決。
OpenAI o1-preview 將在今天開始能夠在ChatGPT 上使用,並提供給受信任的API使用者。
02.價格沒漲,OpenAI 用o1-mini 解決推理成本問題
在OpenAI 此次發布之前,曾有不少媒體爆料,新模型因為內部推理鏈條較長,對於推理的算力成本的需求進一步增高,OpenAI 很有可能將提高使用模型的費用,甚至最離譜的猜測數字達到每月2000 美金。
而這次OpenAI 的發布,卻令人驚訝,新模型的使用價格並沒有上漲,雖然因為推理成本的原因,使用次數受到了大大的限制。 o1-preview 的每週限制使用條數為30 則訊息。
除了限制使用條數,OpenAI管控推理成本的另一個重要舉措,是隨著o1 模型的推出,同時推出了o1-mini 版。
OpenAI 沒有具體說明o1-mini 的參數量有多大,但透過技術文件可以看出,o1mini 版,和o1 版上下文長度沒有區別,甚至最大輸出token 數更高。
OpenAI 表示o1-mini 尤其擅長準確產生和偵錯複雜程式碼,對於開發人員尤其有用。作為較小的模型,o1-mini 比o1-preview 便宜80%,這使其成為需要推理但不需要廣泛的世界知識的應用程式的強大且經濟高效的模型。
OpenAI 甚至在計劃之後為所有ChatGPT 免費用戶提供o1-mini 存取權限。
不過,作為新模型,o1 系列模型,目前仍然不能瀏覽網頁以獲取資訊以及上傳文件和圖像。 OpenAI 也提示道,GPT-4o 在短期內,在某些任務上會更強一些。
03.Scaling Law 後最重要的進展?
事實上,這次發布了新的模型,甚至不是OpenAI 的發布中唯一重要的事情。
OpenAI 也提及了自己訓練中發現的一個現象:隨著更多的強化學習(訓練時計算)和更多的思考時間(測驗時計算),o1 的表現能持續提升。擴展這種方法的限制與LLM 預訓練的限制有很大不同。
事實上,英偉達的具身團隊領導者Jim Fan 直接在X 上點評了這一事件的歷史意義——模型不僅擁有訓練時的scaling law,還擁有推理層面的scaling law,雙曲線的共同增長,將突破先前大模型能力的提升瓶頸。
Jim Fan 表示,2022 年,人們提出了原始的scaling law(尺度定律),大概意為隨著模型的參數量、資料量和計算量的增加,模型的效能能夠不斷提高。
這指的是在模型的訓練過程中。而scaling law 在今年看起來,似乎已經有停滯的意味——他提到在self-rewarding language 文章中,感受到3 輪自我提升似乎是大語言模型的飽和極限了。
而這次OpenAI 新模型,除了在訓練時,透過增大參數量和資料量,得到了表現上的提升,同時透過增加推理時間——也就是前面所說的模型在自我內部思考的時間——得到了能力上的提升。
也就是說,如果模型未來自己和自己思考的時間越長,得到的答案可能會越準確。這很接近我們對AI的終極想像了——像最早在AlphaGo 中所展現出來的,AI 透過自己和自己下棋,提升自己的棋藝。
OpenAI 的新模型,展現出的,是一條新的大模型的提昇路徑。
Jim Fan 在X 上的一句話令人聳動:「之前,沒有人能將AlphaGo 的成功複製到大模型上,使用更多的計算讓模型走向超人的能力。目前,我們已經翻過這一頁了。
回看2023 年,許多人在問,Ilya 看到了什麼?
大家都懷疑是超級強有力的模型——是的,這次發布的o1 模型確實很強。
但或許,更有可能是這個——推理層面的scaling law 的發現,再一次讓人們意識到,超人的AI ,或許不再遙遠。