OpenAI發布首款具備推理能力的模型o1 擁有初步的事實查核能力
OpenAI 正在發布一款名為o1 的新模型,這是計劃中的一系列”推理”模型中的第一個,這些模型經過訓練,可以比人類更快地回答更複雜的問題。它將與o1-mini 同時發布,後者是一個更小、更便宜的版本。沒錯,如果你對人工智慧的傳言很熟悉的話:這就是被炒得沸沸揚揚的草莓模型。
對OpenAI 來說,o1 代表著它對類人人工智慧的更廣泛目標邁進了一步。更實際的是,它在編寫程式碼和解決多步驟問題方面比以前的模型做得更好。但與GPT-4o 相比,它的成本更高,速度更慢。 OpenAI 將這次發布的o1 稱為”預覽版”,以強調它的雛形。
ChatGPT Plus 和Team 用戶從今天開始可以存取o1-preview 和o1-mini,而Enterprise 和Edu 用戶將在下週初造訪。開發者存取o1 的費用非常昂貴:在API 中,o1-preview 每100 萬個輸入令牌(即模型解析的文字區塊)收費15 美元,每100 萬個輸出令牌收費60 美元。相較之下,GPT-4o 的價格為每100 萬個輸入詞組5 美元,每100 萬個輸出詞組15 美元。
OpenAI的研究負責人傑裡-特沃瑞克(Jerry Tworek)告訴我,o1背後的訓練與前代產品有本質區別,不過公司對具體細節含糊其辭。他說,o1″採用了全新的最佳化演算法和專門為其客製化的新訓練資料集”。
OpenAI 正在培訓先前的GPT 模型模仿訓練資料中的模式。在使用o1 時,OpenAI 利用一種名為”強化學習”的技術訓練模型自行解決問題,該技術透過獎懲來教導系統。然後,它使用”思維鏈”來處理查詢,這與人類逐步解決問題的方式類似。
OpenAI 表示,由於採用了這種新的訓練方法,模型應該會更加準確。 “我們注意到,這個模型產生幻覺的情況減少了,”Tworek 說。但問題依然存在。 “我們不能說我們解決了幻覺問題”。這個新模型與GPT-4o 不同之處主要在於,它能比前代模型更好地處理複雜問題,如編碼和數學問題,同時也能解釋自己的推理。
OpenAI的首席研究官鮑勃-麥格魯(Bob McGrew)告訴我:「這個模型在解決AP數學考試方面絕對比我強,而我在大學裡輔修的是數學。他說,OpenAI 還用國際數學奧林匹克競賽的資格考試對o1 進行了測試,GPT-4o 只正確解決了13% 的問題,而o1 則達到了83%。
“我們不能說我們解決了幻覺問題”
在被稱為”Codeforces”的線上程式設計競賽中,這種新模型在參賽者中的排名達到了第89位,OpenAI聲稱,這種模型的下一個更新版本將在”物理、化學和生物學領域在具有挑戰性的基準任務中取得與博士生類似的表現”。
同時,o1 在很多方面的能力都不如GPT-4o。它在對世界的實際了解方面做得不夠好。它也不具備瀏覽網頁或處理文件和圖像的能力。儘管如此,該公司仍認為它代表了一種全新的能力。它被命名為o1,表示”將計數器重置回1″。
麥克格魯說:”老實說,我認為我們在傳統命名方面做得很糟糕。所以我希望這是我們邁出的第一步,我們會用更新、更理智的名字,更好地向世界其他地方傳達我們正在做的事情。
McGrew 和Tworek 本週透過視訊通話展示了o1。他們要求它解決這個難題:”當公主的年齡是王子年齡的兩倍時,公主的年齡就是王子年齡的兩倍。王子和公主的年齡是多少?請提供該問題的所有答案”。
模型運算了30 秒鐘,然後給了正確答案。 OpenAI 設計的介面可以在模型思考時顯示推理步驟。讓我印象深刻的並不是它展示了自己的工作–GPT-4o 可以在提示下做到這一點–而是o1 是如何刻意模仿人類的思維。諸如”我很好奇”、”我正在思考”和”好的,讓我看看”這樣的句子營造出一種循序漸進的思考假象。
但這個模型不會思考,更不是人類。那麼,為什麼要把它設計得像人一樣呢?
我很好奇”、”我正在思考”、”好的,讓我看看”等短語會讓人產生一種循序漸進的思考錯覺。
Tworek 認為,OpenAI 並不相信人工智慧模型的思維等同於人類思維。但他說,該介面旨在展示模型如何花更多時間處理和深入解決問題。 “在某些方面,它比之前的模型更有人情味”。
麥克格魯說:”我想你會發現,它有很多讓人感覺有點陌生的地方,但也有讓人感覺出奇人性化的地方。該模型處理查詢的時間有限,因此它可能會說:哦,我沒時間了,讓我快點找到答案吧。
大型語言模型並不完全聰明。它們本質上只是根據從大量數據中學到的模式來預測單字序列以提供答案。就拿ChatGPT 來說,它往往會誤認為”草莓”這個詞只有兩個R,因為它沒有正確地分解這個詞。不過,新的o1 模型已經可以正確地回答這個問題。
據報道,OpenAI希望以令人瞠目的1500億美元估值籌集更多資金,其發展動能取決於更多的研究突破。該公司之所以將推理能力引入LLM,是因為它看到了自主系統或代理的未來,它們能夠代表你做出決策並採取行動。
對人工智慧研究人員來說,破解推理是邁向人類智慧水平的重要一步。他們的想法是,如果一個模型不僅能進行模式識別,還能在醫學和工程等領域實現突破。但目前,o1 的推理能力相對較慢,不像代理,開發人員使用起來也很昂貴。
麥格魯說:「我們已經花了好幾個月的時間來研究推理,因為我們認為這實際上是關鍵性的突破。從根本上說,這是模型的一種新模式,以便能夠解決真正困難的問題,從而向人類智慧水準邁進。