AI新時代揭幕會「思考解題邏輯」的OpenAI推理大模型登場
北京時間週五凌晨1時許,AI時代迎來嶄新的起點-能夠進行通用複雜推理的大模型終於走到台前。 OpenAI在官網發佈公告稱,開始向全體訂閱用戶開始推送OpenAI o1預覽模型——也就是先前被廣泛期待的「草莓」大模型。 OpenAI表示,對於複雜推理任務而言,新模型代表著人工智慧能力的嶄新水平,因此值得將計數重置為1,給它一個有別於「GPT-4」系列的全新名號。
推理大模型的特點,就是AI會在回答之前花更多時間思考,就像人類思考解決問題的過程一樣。以往的大模型,背後的邏輯是透過學習大量資料集中的模式,來預測單字產生的序列,嚴格來說並不是真正理解提問。
(明顯能感知到的「思考」過程,資料來源:OpenAI)
認知將躍升至“理科博士生水準”
OpenAI曾解釋過,2023年發布的GPT-4類似於高中生的智能水平,而GPT-5則是完成AI從“高中生躍升至博士”的成長。這個o1模型就是其中關鍵的一步。
相較於GPT-4o等現有的大模型,OpenAI o1能夠解決更困難的推理問題,同時改善過往模型中存在的機制性缺陷。
舉例而言,這個新模型能夠數清楚strawberry裡到底有幾個「r」。
同時AI在解答程式問題時也會更有條理,在著手寫程式碼前,把整個回答的流程全部思考完一遍,再動手輸出程式碼。
例如在預設條件的寫詩任務(例如第二句的最後一個單字需要以i收尾)中,「拿起筆就寫」的GPT-4o的確給出了回答,但往往只會滿足了一部分條件,同時不會自我糾正。這意味著AI必須在第一次生成時就能碰上正確的答案,否則就一定會出錯。但在o1模型中,AI會不斷試錯並打磨答案,從而顯著提高生成結果的準確率和品質。
有趣的是,點開AI思考的過程,還會出現AI表示「我在思考這個事情這麼做行不行」、「啊時間不夠了得盡快給出答案」等。 OpenAI確認,這裡展示的並不是原始的思維鏈,而是“模型生成的摘要”,公司也坦率承認這裡有保持“競爭優勢”的因素。
OpenAI的研究負責人Jerry Tworek透露,o1模型背後的訓練與先前的產品有著根本性的差異。先前的GPT模型旨在模仿其訓練資料中的模式,而o1的訓練旨在讓其獨立解決問題。在強化學習的過程中,使用獎勵和懲罰機制來「教育」AI使用「思考鏈」來處理問題,就像人類習得拆解、分析問題的方式一樣。
根據測試,o1模型在國際數學奧林匹克的資格考試中,能夠拿到83%的分數,而GPT-4o只能正確解決13%的問題。而在程式能力比賽Codeforces中,o1模型拿到89%百分位的成績,而GPT-4o只有11%。
(圖上顯示,o1模型預覽版的能力會比正式版低一截)
OpenAI表示,根據測試,在下一個更新的版本中,AI在物理、化學和生物學的挑戰性基準測試中,表現能夠與博士生水平類似。
該講講缺點和限制了
不難理解,會自己思考問題的AI模型,對於程式設計師、創意工作者,以及幾乎所有的理科相關專業工作者而言是有益的升級,但這個新模型也有其限制。
首先,OpenAI o1模型(至少目前)還不是多模態大模型,同時在回答事實性問題時也不如其他模型。所以在圖像互動、常識問答、網路搜尋方面,GPT-4o依然是更勝一籌的選擇。當然,OpenAI明確表示未來會為這個模型增加連網、檔案和影像上傳等功能。
另一個問題則是貴,而且是非常貴。 o1-預覽模型的定價是每百萬個輸入tokens 15美元,每百萬個輸出tokens 則要60美元,分別是GPT-4o的3倍和4倍。一百萬tokens大致相當於75萬個英文單字。
除了OpenAI o1-預覽版外,OpenAI也同步推出了o1-mini模型。後者是一個更快、更便宜的模型,定價也會便宜80%,適用於需要推理但不需要廣泛世界知識的場景。
而且從OpenAI「摳摳索索」的舉動來看,這個推理模型恐怕非常消耗算力。該公司宣布,從9月12日起,ChatGPT訂閱用戶可以存取這兩個新模型,但目前o1-preview每週訊息數量限制為30條,o1-mini則為50條。
企業版ChatGPT和教育用戶可以從下週開始存取這兩個模型。 API使用等級達到5級的開發者可以立即開始使用這兩個模型,每分鐘的速率限制為20次。 OpenAI未來準備向免費用戶提供o1-mini模型,但目前還沒有時間表。