OpenAI首款推理模型o1發布:思考更類人可解答83%奧數問題
OpenAI正式發布一個名為o1的新模型,這是一系列計劃中的「推理」模型中的首個,這些模型經過訓練,能夠比人類更快地回答更複雜的問題。同時發布的還有o1-mini,這是一個更小、更便宜的版本,o1實際上就是先前傳聞熱議的草莓Strawberry模型。
對OpenAI 來說,o1代表了朝更廣泛目標——類人人工智慧邁進的一步。更實際地說,它在編寫程式碼和解決多步驟問題方面比之前的模型做得更好。但它也比GPT-4o更昂貴,使用起來更慢。 OpenAI將這次o1的發布稱為“預覽”,強調它的初期階段。
ChatGPT Plus和Team用戶從今天開始就可以使用o1-preview和o1-mini,而企業和教育用戶將在下週初獲得存取權限。 OpenAI表示,它計劃將o1-mini的存取權限擴展到所有免費用戶,但尚未設定發布日期。
開發者對o1的存取非常昂貴:在API中,o1-preview的價格是每100萬個輸入tokens 15美元,每100萬個輸出tokens 60美元。相比之下,GPT-4o的價格是每100萬個輸入tokens 5美元,每100萬個輸出tokens 15 美元。
OpenAI的研究負責人傑裡-特沃瑞克(Jerry Tworek)表示,o1背後的訓練與前代產品有本質區別,不過公司對具體細節含糊其辭。 他只透露,o1 「採用了全新的最佳化演算法和專為其客製化的新訓練資料集」。
由於這種新的訓練方法,OpenAI 表示模型應該更準確。 「我們注意到這個模型產生的幻覺更少,」 Tworek 說。但問題仍然存在。 “我們不能說我們已經解決了幻覺問題。”
這個新模型與GPT-4o的主要區別在於,它在解決複雜問題(如程式設計和數學)方面比先前模型做得更好,同時也解釋了它的推理過程。
OpenAI的首席研究官鮑勃-麥格魯(Bob McGrew)表示,「這個模型在解決AP數學考試方面絕對比我強,而我在大學裡輔修的是數學。」他指出,OpenAI 還用國際數學奧林匹克競賽的資格考試對o1 進行了測試,GPT-4o 只正確解決了13%的問題,而o1則達到了83%。
在「Codeforces」的線上程式設計競賽中,這種新模型在參賽者中的排名達到了第89位,OpenAI聲稱,這種模型的下一個更新版本將在物理、化學和生物學領域具有挑戰性的基準任務中取得與博士生類似的表現。
但是,o1 在許多領域並不像GPT-4o那樣能幹。它在有關世界的事實知識方面做得併不好。它也沒有瀏覽網頁或處理文件和圖像的能力。儘管如此,該公司認為它代表了一種全新的能力。它被命名為o1是為了表示「將計數器重設為1」。
「我要坦白說:我認為我們傳統上在命名方面很糟糕,」 McGrew 說。 “所以我希望這是更明智、更清晰地向世界傳達我們在做什麼的第一步。”
目前媒體還未能體驗到o1新模型,但OpenAI技術人員向媒體簡單介紹了新模型處理能力。他們要求它解決這個謎題:
「當公主的年齡是王子將來年齡的兩倍時,公主的年齡和王子現在的年齡一樣大,那時公主的年齡是她現在年齡的一半加上王子現在的年齡。王子和公主的年齡是多少?
模型緩衝了30秒鐘,然後給出了正確答案。 OpenAI設計的介面可以在模型思考時顯示推理步驟。 讓人印象深刻的並不是它展示了自己的工作,而是o1在「刻意」模仿人類思維。 諸如「我很好奇」、「我正在思考」和「好的,讓我看看」這樣的句子營造出一種循序漸進的思考假象。
但這模型不是在思考,它當然也不是人類。那麼,為什麼要設計它看起來像是在思考呢?
Tworek 認為,OpenAI 並不相信人工智慧模型的思維等同於人類思維。 但他說,該介面旨在展示模型如何花更多時間處理和深入解決問題。 「在某些方面,它比以前的模型更有人情味」。
「我認為你會看到很多它感覺有點像外星人的方式,但也有它出奇地像人類的方式,」 McGrew 說。模型被給予有限的時間來處理查詢,所以它可能會說,「哦,我快點沒時間了,讓我快點給出答案。」在它的思維鏈早期,它可能看起來像是在頭腦風暴,說,“我可以這樣做或那樣做,我該怎麼做?”
隨著OpenAI 據報導尋求以驚人的1500 億美元估值籌集更多資金,其勢頭取決於更多的研究突破。該公司正在為LLM 引入推理能力,因為它看到了一個未來,擁有能夠代表你做出決策和採取行動的自主系統或代理。
對AI 研究人員來說,破解推理是邁向類人智慧的重要下一步。如果一個模型能夠超越模式識別,它可能會在醫學和工程等領域取得突破。目前,o1 的推理能力相對較慢,不像智能體,對開發者來說使用成本高昂。
「我們一直在花數月時間研究推理,因為我們認為這實際上是關鍵突破,」 McGrew 說。 “從根本上說,這是一種新的模型模式,以便能夠解決真正困難的問題,這是朝著類人智能水平邁進所必需的。”