AI新時代揭幕會「思考解題邏輯」的OpenAI推理大模型登場

2024-09-13 Comments 0 Comment

北京時間週五凌晨1時許，AI時代迎來嶄新的起點－能夠進行通用複雜推理的大模型終於走到台前。 OpenAI在官網發佈公告稱，開始向全體訂閱用戶開始推送OpenAI o1預覽模型——也就是先前被廣泛期待的「草莓」大模型。 OpenAI表示，對於複雜推理任務而言，新模型代表著人工智慧能力的嶄新水平，因此值得將計數重置為1，給它一個有別於「GPT-4」系列的全新名號。

推理大模型的特點，就是AI會在回答之前花更多時間思考，就像人類思考解決問題的過程一樣。以往的大模型，背後的邏輯是透過學習大量資料集中的模式，來預測單字產生的序列，嚴格來說並不是真正理解提問。

（明顯能感知到的「思考」過程，資料來源：OpenAI）

認知將躍升至“理科博士生水準”

OpenAI曾解釋過，2023年發布的GPT-4類似於高中生的智能水平，而GPT-5則是完成AI從“高中生躍升至博士”的成長。這個o1模型就是其中關鍵的一步。

相較於GPT-4o等現有的大模型，OpenAI o1能夠解決更困難的推理問題，同時改善過往模型中存在的機制性缺陷。

舉例而言，這個新模型能夠數清楚strawberry裡到底有幾個「r」。

同時AI在解答程式問題時也會更有條理，在著手寫程式碼前，把整個回答的流程全部思考完一遍，再動手輸出程式碼。

例如在預設條件的寫詩任務（例如第二句的最後一個單字需要以i收尾）中，「拿起筆就寫」的GPT-4o的確給出了回答，但往往只會滿足了一部分條件，同時不會自我糾正。這意味著AI必須在第一次生成時就能碰上正確的答案，否則就一定會出錯。但在o1模型中，AI會不斷試錯並打磨答案，從而顯著提高生成結果的準確率和品質。

有趣的是，點開AI思考的過程，還會出現AI表示「我在思考這個事情這麼做行不行」、「啊時間不夠了得盡快給出答案」等。 OpenAI確認，這裡展示的並不是原始的思維鏈，而是“模型生成的摘要”，公司也坦率承認這裡有保持“競爭優勢”的因素。

OpenAI的研究負責人Jerry Tworek透露，o1模型背後的訓練與先前的產品有著根本性的差異。先前的GPT模型旨在模仿其訓練資料中的模式，而o1的訓練旨在讓其獨立解決問題。在強化學習的過程中，使用獎勵和懲罰機制來「教育」AI使用「思考鏈」來處理問題，就像人類習得拆解、分析問題的方式一樣。

根據測試，o1模型在國際數學奧林匹克的資格考試中，能夠拿到83%的分數，而GPT-4o只能正確解決13%的問題。而在程式能力比賽Codeforces中，o1模型拿到89%百分位的成績，而GPT-4o只有11%。

（圖上顯示，o1模型預覽版的能力會比正式版低一截）

OpenAI表示，根據測試，在下一個更新的版本中，AI在物理、化學和生物學的挑戰性基準測試中，表現能夠與博士生水平類似。

該講講缺點和限制了

不難理解，會自己思考問題的AI模型，對於程式設計師、創意工作者，以及幾乎所有的理科相關專業工作者而言是有益的升級，但這個新模型也有其限制。

首先，OpenAI o1模型（至少目前）還不是多模態大模型，同時在回答事實性問題時也不如其他模型。所以在圖像互動、常識問答、網路搜尋方面，GPT-4o依然是更勝一籌的選擇。當然，OpenAI明確表示未來會為這個模型增加連網、檔案和影像上傳等功能。

另一個問題則是貴，而且是非常貴。 o1-預覽模型的定價是每百萬個輸入tokens 15美元，每百萬個輸出tokens 則要60美元，分別是GPT-4o的3倍和4倍。一百萬tokens大致相當於75萬個英文單字。

除了OpenAI o1-預覽版外，OpenAI也同步推出了o1-mini模型。後者是一個更快、更便宜的模型，定價也會便宜80%，適用於需要推理但不需要廣泛世界知識的場景。

而且從OpenAI「摳摳索索」的舉動來看，這個推理模型恐怕非常消耗算力。該公司宣布，從9月12日起，ChatGPT訂閱用戶可以存取這兩個新模型，但目前o1-preview每週訊息數量限制為30條，o1-mini則為50條。

企業版ChatGPT和教育用戶可以從下週開始存取這兩個模型。 API使用等級達到5級的開發者可以立即開始使用這兩個模型，每分鐘的速率限制為20次。 OpenAI未來準備向免費用戶提供o1-mini模型，但目前還沒有時間表。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

WONGCW 網誌

記錄生活經驗與點滴

AI新時代揭幕會「思考解題邏輯」的OpenAI推理大模型登場

2024-09-13 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆