OpenAI o1驚現自我意識?陶哲軒實測大受震撼門薩智商100奪模型榜首
OpenAI o1,在IQ測驗中拿到第一名了!大佬Maxim Lott,給o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等進行了智商測試,結果表明,o1穩居第一名。緊隨其後的,就是Claude-3 Opus和Bing Copilot,分別取得了第二名和第三名。
注意,這套智商測試題,屬於門薩會員的離線智商測試,不在任何AI訓練資料中,因此結果非常具有參考性。
在著名數學家陶哲軒也對o1進行了實測,發現自己向模型提出一個措辭模糊的數學問題後,它竟然能成功辨識出克萊姆定理。
更巧的是,就在o1發布之後,OpenAI的研究副總裁Mark Chen發表觀點稱:如今的大型神經網絡,可能已經具有足夠的算力,在測試中表現出一些意識了。
相信AI具有意識的行業領導者,如今已經有了一串長長的名單,包括但不限於——
Geoffrey Hinton(人工智慧教父,被引用次數最多的AI科學家)
Ilya Sutskever(被引用次數第三多的AI科學家)
安德烈·卡帕蒂
如今,業內許多人都相信AI具有意識,並且正在等待「奧弗頓之窗」進一步打開,從而使公眾願意接受這一點。
甚至有人預言:在2024/2025年,AI一定會有意識,因為如今模型的行為已經明顯表現出感知能力了。
有網友發現,o1不只是對經驗性的STEM學科很強,它甚至能夠假設出一種全新的意識理論。
有人覺得,o1向無限推理模式邁出的一小步,已經具備意識的雛形。
陶哲軒:o1竟能辨識出克萊姆定理
而在實測中,陶哲軒發現:o1模型在數學方面的表現更強了!
首先,他提出了一個措辭模糊的數學問題,如果他能搜尋文獻並找到合適的定理,即克萊姆定理(Cramer’s theorem),就可以解決這個問題。
在先前的實驗中,GPT能夠提到一些相關概念,但細節都是胡編亂造的無意義內容。
而這一次,o1成功辨識出了克萊姆定理,並給出了令人滿意的答案。
完整回答:https://shorturl.at/wwRu2
在下面這個例子中,提出的問題是更有挑戰性的複變函數分析,結果同樣優於先前的GPT系列模型。
在有大量提示詞和引導的情況下,o1能輸出正確且表達良好的解決方案,但不足之處在於無法自行產生關鍵的概念性想法,而且犯了明顯錯誤。
陶哲軒形容,這種體驗大致相當於指導一個能力一般但也能勝任部分工作的研究生,GPT給人的感覺則是一個完全無法勝任工作的學生。
可能只需要經過一兩次迭代,再加上其他工具的集成,比如計算機代數包和證明輔助工具,就能讓o1模型蛻變為“稱職的研究生”,屆時這個模型將在研究任務中發揮重要作用。
完整回答:https://shorturl.at/ZrJyK
上下滑動查看
上下滑動查看
上下滑動查看
在第三個實驗中,陶哲軒要求o1模型在證明輔助工具Lean中形式化一個定理,需要先將其分解為子引理並給出形式化表述,但不需要給出證明。
定理的內容,具體來說,是將素數定理的一種形式建立為另一種形式的推論。
實驗結果也很不錯,因為模型了解這個任務,並對問題進行了合理的初步分解。
然而,可能是因為訓練數據中缺乏關於Lean及其數學函數庫的最新數據,生成的程式碼中也有幾處錯誤。
儘管仍有缺陷,但這次實驗結果已經能讓人預見o1在數學研究的實際應用。
類似的模型如果針對Lean和Mathlib進行微調,並整合到整合開發環境(IDE)中,在形式化專案中將會發揮極大的作用。
在先前多次的演講中,陶哲軒曾一再強調AI工具在定理形式化中的應用,看來大神的預言又會成真了。
完整回答:https://shorturl.at/OGtjt
電腦教授用動畫揭秘:o1如何花更多時間思考?
o1學會用CoT思考更長時間的過程中,究竟是取得了哪些重要突破,才造成了關鍵性的提升?目前我們只能從已有資訊中做一些猜測。
例如,基於已有資訊和自己的理解,科羅拉多大學博爾德分校電腦教授Tom Yeh就專門製作了一個動畫,講解OpenAI是如何訓練o1模型花更多時間思考的。
關於訓練,報告中有非常簡短的一句話:
“透過強化學習,o1 學會了磨練其思維鏈並改進策略。”
這句話中的兩個關鍵字是:強化學習(RL)和思考鏈(CoT)。
在RLHF+CoT中,CoT token也會被輸入到獎勵模型中以獲得分數,以更新LLM,從而實現更好的對齊;而在傳統的RLHF中,輸入只包含提示詞和模型響應。
在推理階段,模型學會了先生成CoT token(可能需要長達30秒的時間),然後才開始產生最終反應。這就是模型如何花更多時間去「思考」的方式。
在報告列出的貢獻者中,有兩個人值得關注:
Ilya Sutskever,基於人類回饋的強化學習(RLHF)的發明者,出現他的名字意義訓練o1模型時仍然用到了RLHF。
Jason Wei,著名的思維鏈論文的作者。他去年離開Google Brain加入了OpenAI。他的出現意味著CoT現在是RLHF對齊過程的重要組成部分。
不過,有許多重要的技術細節OpenAI並沒有透露,例如獎勵模型是如何訓練的,如何獲得人類對「思考過程」的偏好等等。
免責聲明:動畫僅代表教授的合理推測,不保證準確性
團隊分享慶功視頻,分享“啊哈”時刻
關於研究中取得重要突破的瞬間,在下面這段影片中,給了我們更多線索。
在發布o1模型後,團隊發布了背後團隊一起製作的影片。
當前時間 0:00
/
持續時間 3:16
自動播放
在影片中,有人表示,自己覺得研究中最酷的就是那個「啊哈」時刻了。
在某個特定的時間點,研究發生了意想不到的突破,一切忽然就變得很明了,彷彿頓悟一般靈光乍現。
所以,團隊成員們分別經歷了怎樣的「啊哈」時刻呢?
有人說,他感覺到在訓練模型的過程中,有一個關鍵的時刻,就是當他們投入了比以前更多的算力,首次生成了非常連貫的CoT。
就在這一刻,所有人都驚喜交加:很明顯,這個模型跟以前的有明顯的差異。
也有人表示,當考慮到訓練一個具備推理能力的模型時,首先會想到的,是讓人類記錄其思考過程,據此進行訓練。
對他來說,啊哈時刻就是當他發現透過強化學習訓練模型生成、優化CoT,效果甚至比人類寫的CoT還好的那一刻。
這一刻表明,我們可以透過這種方式擴展和探索模型的推理能力。
這一位研究者說,自己一直在努力提升模型解決數學問題的能力。
讓他很沮喪的是,每次生成結果後,模型似乎從不質疑自己做錯了什麼。
然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。
而且,研究者可以看到模型的研究過程了──它開始自我反思、質疑自己。
他驚嘆道:我們終於做出了不同的東西!
這種感受極為強烈,那一瞬間,彷彿所有東西都匯聚到了一起。
Open o1團隊開放團隊問答,面對質疑
大家對o1模型的細節都有許多疑問,因此,OpenAI o1團隊也表示,將在X上組織一個AMA(Ask Me Anything)的活動,透過下方評論和用戶互動。
網友們非常踴躍,提出了許多關鍵細節問題。
例如,有沒有辦法強迫模型,讓它思考的時間長一點?
團隊的回答是:目前還沒有這個選項,但會考慮改進,讓使用者更能控制模型思考的時間。
有人向Jason Wei提問:在o1範式下看過什麼逆縮放範例,看到模型變得更差?此外,他也質疑目前的基準測試排名缺乏足夠的證據。
Jason Wei回答說,自己並不知道,相信其他人看過。在某些類型的提示下,OpenAI o1-preview似乎並不比GPT-4o好多少,甚至還稍差一些。
而對於LLM排行榜如何公平比較的問題,Jason Wei表示自己也不知道。但他可以肯定:無論怎麼努力地提示GPT-4o,都不可能讓它獲得IOI金牌。
還有人提出了一個很多人都感到困惑的問題:o1究竟是不是在幕後運行CoT,然後提供答案或模型的系統呢?它是否使用了特殊token進行推理,在輸出時隱藏了這些token?
Noam Brown回答說,自己不會說o1是一個系統,它是一個模型,但與之前的模型不同。這個回答,看起來有點語焉不詳。
還有人採訪:o1表現出的最令人深刻的一點是什麼?
Noam Brown回答說,自己給模型下指令讓它自己回答這個問題。
在CoT中,模型開始自己給自己出難題測試自己,來決定自己的能力水準。一個模型會這麼做,就夠讓人印象深刻的了。
Hyung Won Chung則表示,模型對哲學問題的思考過程相當引人入勝。比如,生命是什麼?
活動結束後,大V「Tibor Blaho」特別寫了一篇總結,對於團隊的回答,做出了簡潔扼要的概括——
模型名稱和推理範式
OpenAI o1的命名代表了AI能力的新水準;計數器重置為1
「Preview」表示這是完整模型的早期版本
「Mini」意味著這是o1模型的較小版本,針對速度進行了最佳化
“o”代表OpenAI
o1不是一個「系統」;它是一個經過訓練的模型,在返回最終答案之前產生長思維鏈
o1的圖標象徵性地表示為一個具有非凡能力的外星生命
o1模型的規模和性能
o1-mini比o1-preview小得多且更快,因此未來將提供給免費用戶
o1-preview是o1模型的早期檢查點,既不大也不小
o1-mini在STEM任務中表現較好,但世界知識有限
比起o1-preview,o1-mini在某些任務中表現出色,尤其是與程式碼相關的
o1的輸入token計算方式與GPT-4o相同,使用相同的分詞器(tokenizer)
o1-mini能夠探索比o1-preview更多的思維鏈
輸入token上下文和模型能力
o1模型即將支援更大的輸入上下文
o1模型可以處理更長、更開放的任務,與GPT-4o相比,減少了輸入分塊的需求
o1可以在提供答案之前產生長思維鏈,這與先前的模型不同
目前還沒有辦法在思維鏈推理過程中暫停以添加更多上下文,但正在為未來的模型探索這項功能
工具、功能和即將推出的特性
o1-preview目前還不能使用工具,但計畫支援函數呼叫、程式碼解釋器和瀏覽功能
工具支援、結構化輸出和系統提示將在未來更新中添加
使用者可能會在未來版本中獲得對思考時間和token限制的控制權
計劃在API中啟用串流處理並考慮推理進度
多模態能力已內建於o1中,可以在MMMU等任務中實現SOTA的性能
思考鏈(CoT)推理
o1會在推理過程中產生隱藏的思考鏈
沒有計劃向API用戶或ChatGPT透露思維鏈token
思維鏈token被總結,但不保證忠於實際推理過程
提示詞中的指令可以影響模型如何思考問題
強化學習(RL)被用來改善o1的思維鏈,只靠提示的GPT-4o在表現上無法匹敵
思考階段看起來較慢是因為它總結了思考過程,而答案的生成通常更快
API和使用限制
o1-mini對ChatGPT Plus用戶有每週50次提示的限制
在ChatGPT中,所有提示詞的計數是相同的
隨著時間的推移,將推出更多API存取層級和更高的使用限制
API中的提示快取是一個很受歡迎的需求,但目前還沒有時間表
定價、微調和擴展
o1模型的定價預計將遵循每1-2年降價的趨勢
一旦使用限制提高,將支援批量API定價
微調在路線圖上,但目前還沒有時間表
o1的擴展受到研究和工程人才的限制
推理计算的新扩展范式可能会为未来几代模型带来显著收益
反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)
模型開發和研究洞察
o1使用強化學習進行訓練從而實現推理能力
o1在詩歌等橫向任務中展現了創造性思維和強大的性能
o1的哲學推理和泛化能力,如破解密碼,令人印象深刻
研究人員使用o1創建了一個GitHub機器人,可以ping正確的CODEOWNERS進行審核
在內部測驗中,o1透過自問難題來衡量其能力
正在添加廣泛的世界領域知識,並將在未來版本中改進
計劃在o1-mini的未來迭代中使用更新的數據(目前為2023年10月)
提示技巧和最佳實踐
o1受益於提供邊緣案例或推理風格的提示
與早期模型相比,o1對提示中的推理線索更敏感
在檢索增強生成(RAG)中提供相關上下文可以提高效能;不相關的區塊會對推理產生負面影響
一般回饋和未來改進
由於還在早期測試階段,o1-preview的使用限制較低,但之後會增加
正在積極改進延遲和推理時間
卓越的模型能力
o1能夠思考「生命是什麼?」這類哲學問題
研究人員發現o1在處理複雜任務和從有限指令中泛化的能力令人印象深刻
o1的創造性推理能力,如自問自答以衡量其能力,展現了其高水準的問題解決能力
參考資料: