OpenAI o1非GPT-4o直接進化在成本與效能上妥協
OpenAI已經推出了新模型OpenAI o1的兩大變體-o1-preview與o1-mini,這兩款模型都有許多值得深入探討的內容。人工智慧專家西蒙威利森(Simon Willison)專門發文,深入剖析了這些新模型背後的設計理念與實現細節,揭示了它們在技術上的獨特優勢與不足。威利森表示,o1並不是簡單的GPT-4o直接升級版,而是在強化「推理」能力的同時,也做出了成本與效能上的權衡。
1. 訓練思維鏈
OpenAI的聲明是一個很好的起點:“我們研發了一系列新型人工智慧模型,旨在讓它們在做出回應之前花更多時間思考。”
這些新模型可視為思維鏈提示策略的深化拓展—「逐步思維」策略的具體實踐。實際上,人工智慧社群在這個領域已經探索了數年,這項策略首次在2022年5月發布的論文《大語言模型是零樣本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。
OpenAI發布的《與大語言模型共學推理》(Learning to Reason with LLMs)一文詳細闡述了新模型的訓練方法,揭示了其能力提升背後的秘密。文中指出:
「我們的大規模強化學習演算法精心設計了訓練流程,使模型在高效利用資料的同時,能夠熟練運用思維鏈進行深度思考。我們發現,隨著強化學習訓練時間的增加以及模型在測試時分配更多思考時間,o1的性能持續顯著提升。
透過強化學習的訓練,o1不僅學會了優化其思維鏈的使用,也掌握了自我提升的關鍵技能。 o1能夠辨識並修正錯誤,將複雜難題拆解為一系列較易處理的子任務。當現有方法失效時,它會嘗試不同的方法直到找到最佳解法。這一過程極大提升了模型的推理能力。
實際上,這標誌著模型在處理複雜提示方面實現了質的飛躍。面對那些需要回溯與深入「思考」的任務時,模型能夠展現出更出色的表現,而不再只依賴下一個Token預測。
威利森指出,雖然他對「推理」一詞在大語言模型中的定義有保留,但鑑於OpenAI已明確採用此術語,並成功表達了新模型致力於解決的核心問題,他認為這種表達在此情境下是恰當且有效的。
2. 來自API文件的底層細節
關於新模型及其設計權衡,OpenAI在API文件中提供了許多有趣的細節:
對於依賴影像輸入、函數呼叫或追求即時反應速度的應用場景,GPT-4o及其精簡版GPT-4o mini仍是理想選擇。然而,如果你的專案需要深度推理能力,並且能夠適應較長的反應時間,那麼o1模型無疑是更優的選擇。
威利森從OpenAI的文檔中摘錄了幾個關鍵點:
API存取權限:目前,o1-preview與o1-mini的存取僅限於五級帳戶用戶,且API積分累計需達到至少1,000美元方可解鎖。
系統提示限制:模型整合了現有的聊天完成API,但僅支援使用者與助理之間的訊息交互,不支援系統提示功能。
其他功能限制:目前模型不提供流處理支援、工具整合、批次呼叫或影像輸入。
回應時間:鑑於模型解決問題所需推理量的不同,處理請求的時間可能介於幾秒鐘至幾分鐘不等。
特別引人注目的是「推理Token」的引入。這些Token在API回應中不可見,卻扮演著至關重要的角色,是驅動新模型能力的核心,且作為輸出Token計費併計數。鑑於推理Token的重要性,OpenAI建議為充分利用新模型的提示預留約25,000個推理Token的預算。
為此,輸出Token的配額顯著提升:o1-preview的配額增加至32,768個,而o1-mini則高達65,536個。相較於GPT-4o及其mini版(兩者的配額均為16,384個),此增加為用戶提供了更多資源。
API文件還提供了一個新穎且關鍵的提示,旨在優化檢索增強生成(RAG):在整合附加上下文或文件時,應嚴格篩選,保留最相關的信息,以避免模型生成過於復雜的響應。這與RAG的傳統做法截然不同,後者傾向於將大量潛在相關文件納入提示。
3. 隱藏的推理Token
令人遺憾的是,推理Token在API呼叫中處於隱藏狀態。用戶需要為這些Token支付費用,卻無法得知其具體內容。 OpenAI對此政策的解釋如下:
“隱藏思維鏈的初衷在於確保模型’思維’過程的獨立性和表達自由,避免外界幹預或操控其推理邏輯。展示模型的完整思維鏈可能暴露不一致性,並影響用戶體驗。”
這項決策基於多重考量:一方面是為了確保安全與策略的遵從性,另一方面則是為了維持技術上的競爭優勢,避免競爭對手利用推理成果進行訓練。
作為對大語言模式發展持保留態度的一方,威利森對此決定並不滿意。他認為,在追求技術創新的同時,保持可解釋性與透明度至關重要。關鍵細節的隱藏,意味著對透明度的一種削弱,感覺像是一個倒退的舉措。
4.範例解讀
OpenAI在「思維鏈」部分提供了許多範例,包括Bash腳本產生、填字遊戲解答和化學溶液pH值計算等,初步展示了這些模型在ChatGPT使用者介面下的思維鏈能力。但它並未展示原始的推理Token,而是透過一種最佳化機制,將複雜的推理步驟簡化為易於理解的摘要。
OpenAI也額外提供了兩份文檔,展示了更複雜的例子。在「使用推理進行資料驗證」一例中,o1-preview示範如何在11列CSV資料中產生範例,並透過多種策略驗證資料的正確性;而「使用推理產生例程」則展示如何將知識庫文章轉化為大語言模型能夠解析並執行的標準化操作流程。
威利森也在社群媒體上徵集了許多GPT-4o未能成功應對卻在o1-preview上表現出色的提示案例。其中兩個尤其引人注目:
字數計數挑戰:「你對這個提示的回答有多少字?」 o1-preview模型在給出「這個句子裡有七個單字」之前,耗時約十秒並經歷了五次推理過程。
幽默解析:「解釋一下這個笑話:『兩頭牛站在地裡,一頭牛問另一頭:’你怎麼看瘋牛病?’ 另一頭說:’無所謂,我是直升機。』」 o1-preview給了既合理又詳細的解釋,而其他模型對此無解。
儘管如此,優質的示例仍然較少。 OpenAI研究員Jason Wei指出,儘管o1在AIME和GPQA測試中的表現非常強大,但這種效果並不總是直觀可感。要找到讓GPT-4o失手而o1表現出色的提示並不容易,但當你找到時,o1的表現堪稱神奇。大家都需要尋找更具挑戰性的提示。
另一方面,華頓商學院管理學教授、人工智慧專家伊森·莫里克(Ethan Mollick)透過幾週的預覽體驗,對o1給出了初步評價。他特別提到了一個填字遊戲範例,其中o1-preview模型展現了清晰的推理步驟,如指出1 Across與1 Down的首字母不匹配,並主動建議替換答案以確保一致性。
5.推理模型的未來
人工智慧領域這項新進展帶來了許多待解之謎與潛在機遇,社群正逐步探索這些模型的最佳應用場景。在此期間,威利森預計GPT-4o(及Claude 3.5 Sonnet等模型)將繼續發揮重要作用。同時,我們也將見證這些推理模型如何擴展我們的思考模式,解決更多前所未有的任務。
此外,威利森期待其他AI實驗室,特別是開放模型權重社區,能夠積極跟進,利用各自獨特的模型版本復現並深化這些思維鏈推理的成果。