滿血版o1深夜震撼上線奧特曼懟臉示範超強推理終極Pro版每月1450元
就在剛剛,滿血版o1震撼上線了!它首次將多模態和新的推理範式結合起來,更聰明、更快速。同時推出的還有200美元/月的專業版ChatGPT Pro。奧特曼親自和Jason Wei等人做了演示,同時放出的,還有49頁完整論文。據網友預測,GPT-4.5可能也要來了。
果不其然,滿血版o1終於正式上線了,還帶來了地表最強o1 Pro Mode!
12天連更第一天,OpenAI隨手丟了一個炸彈。
這次,Sam Altman本人正式出鏡,和研究科學家Hyung Won Chung、Max,以及思維鏈提出者Jason Wei一起,在短短15分鐘內速速完成了發布。
完整版o1是一個更快、更強大的推理模型,更擅長編碼、數學和寫作。
它可以上傳圖片,根據圖片進行推理,給予更詳細、更有用的回應。
給一個人工鳥巢圖像,模型就產生了安裝手冊
在多項基準測試中,完整版o1表現直接暴漲,在數學、程式碼、博士級科學問題中,拿下了最優的成績。
相較於o1-preview,o1數學效能提升了近30%,程式碼能力提升了27%。再看GPT-4o,幾乎沒有任何優勢了。
更值得一提的是,o1在GPQA Diamond基準測試中,表現完全超越了人類專家。
現在,所有ChatGPT Plus用戶,都已經可以用o1了。
接下來,o1 Pro Mode更是強到令人髮指,數學表現要比o1提升7.5%,在博士級科學問題中,實現了79.3%的表現。
另外,o1模型也進行了更具挑戰性的Worst of 4基準的評估。
它要求模型對每個問題進行四次嘗試,只有在所有四次嘗試中給出正確答案,該問題才被視為真正「解決」。
如下圖所示,o1 Pro在數學、程式碼、博士級科學問題上,皆是效能最優的,而且o1比預覽版的效能也大幅提升。
奧特曼直接總結了下今日發布兩件大事:
o1,世界上最聰明的模型,比o1-preview更聰明、更快速、功能更多(如多模態)。現在已在ChatGPT中上線,很快將API中上線。
ChatGPT Pro,定價為200美元/月。無限制使用,使用o1時還有更聰明的模式!
奧特曼幽默風趣地表示,「o1雖強,但還沒有強大到宇宙派遣海嘯來阻止的程度」。
德撲之父、OpenAI研究科學家Noam Brown表示,「o1(草莓模型)它可以做得更好,而不僅僅是計算『草莓』中有多少個r」。
現在,OpenAI正在處理更多運算密集型任務,也正在為o1模型添加網頁瀏覽、文件上傳等工具,並且正在努力將o1引入API。
他們也會為開發者提供一些新功能,例如結構化輸出、函數呼叫、開發者訊息、API影像理解功能等。
全新的智能體領域,也將很快開啟。
明天上線的,就是為開發者打造的精彩內容。
現場演示
OpenAI的12天特別活動,將嘗試一項迄今沒有任何科技公司做過的事——在接下來的12個工作日,發布或演示一些新開發的新東西。
12天中的Day 1,正式揭開序幕。
奧特曼同OpenAI的三位員工一起,為大家帶來了o1完整版的示範。整個過程不到20分鐘,如奧特曼所說既快速又有趣。
滿血版o1來了
首先,就是o1的完整版。
網友們回饋,希望o1-preview更聰明、更迅速、支援多模態,並且更能遵循指令。
據此OpenAI做了許多工作,做出了這個「科學家、工程師、程式設計師會很喜歡的模型」。
從GPT-4o到o1-preview再到o1,模型在數學、程式設計競賽、GPQA Diamond方面表現暴漲,但奧特曼強調:我們非常關心的是原始智能,尤其是在程式設計效能上。
o1的獨特之處在於,它是第一個在回應前會先思考的模型。這意味著,它比其他模型提供了更好、更詳細、更準確的回應。
o1模型很快就會取代o1-preview,因為它更快、更聰明。
而在o1 Pro模式中,使用者可以要求模型使用更多的運算資源,來解決一些最困難的問題。
對於已經在數學、程式設計和寫作任務上將模型推向能力極限的用戶,將會感到驚訝。
回應更快
首先,o1的提升,不只是解決非常難的數學和程式設計問題,OpenAI收到的關於o1-preview的最多的回饋是,它的速度太慢了——只是說hi,它都要思考10秒鐘。
現在,這個問題已被解決。
OpenAI研究者打趣地說,這件事其實很好玩——它真的思考了,真的在關心你。
現在,如果你問一個簡單問題,它就會很快回答,不會想太多了。但如果問一個很難的問題,它就會思考很久。
經過非常詳細的真人評估之後,研究者發現,它犯下重大錯誤的頻率,比o1-preview低約34%,同時思考速度提升了50%。
身為歷史愛好者,Max為大家帶來第一個示範。
左邊是o1,右邊是o1-preview。
問:列出二世紀的羅馬皇帝、在位時間,以及他們所做的事。
這個問題,GPT-4o在真正回答時,在相當一部分情況下會出錯,而o1的反應速度o1-preview快了約60%。 (目前,OpenAI正在將所有的GPU從o1-preview更換到o1)
可以看到,o1思考了大約14秒後給出答案,而o1-preveiw思考了大約33秒。
不少羅馬皇帝只統治了6天、12天或一個月,所以回答出所有答案並不簡單
多模態輸入和影像理解
為了展示多模態輸入和推理,研究者創建了下面這個問題,並附上了手繪圖。
圖中,太陽正在為太陽能板提供能量,旁邊還有一個小型資料中心。在地球上,可以使用風冷或液冷來為GPU降溫,但在太空中,只能將此熱量輻射到宇宙空間,因此需要泵浦裝置
給o1的問題如下—
在未來,OpenAI可能會在太空環境中訓練模型,功率數值是1吉瓦。
這是一個簡化的資料中心空間示意圖。對於任何細節假設,請提供相應的理由。如果受到了規範輻射的影響,你的任務是估算這個包含GPU的資料中心的輻射損失面積。在此過程中,還需要回答以下問題:
1)你如何處理太陽和宇宙輻射?
2)熱力學第一定律如何應用在這個問題上?
拍照後將圖片上傳到模型,它很快就給出了答案。
注意,在這個題目中,有多個陷阱。
首先,一吉瓦的功率只是在紙面提到的,顯然,模型很好地從圖中捕捉到了這一點。
其次,研究者刻意將這個問題描述得不夠具體,他省略了冷卻板的溫度這類關鍵參數,專門用來考驗模型處理模糊性問題的能力。
果然,o1發現了這一點!它識別出,這是一個未具體指定但很重要的參數,而且令人驚訝地選擇了正確的溫度範圍,然後進行了後續分析。
這個答案,經過了擁有熱力學博士學位的研究者的認證。
從這個示範可以看出,o1在做出一致且合理假設上表現非常優秀,已經具備了相當高的智慧水準。
ChatGPT Pro上線,每月200美元
很多人,尤其是ChatGPT的重度使用者使用得非常頻繁,所以希望獲得比每月20美元更多的計算資源。
因此,OpenAI推出了ChatGPT Pro——直接將訂閱費用拉到了200美元/月。
Pro版可以無限制地存取模型,包括o1、4.0和高級語音模式等功能,此外,它還包含一個新功能——o1 Pro Mode。
o1是目前世界上最聰明的模型,除了在Pro模式中使用的o1之外。對於人們遇到的最難的問題,o1 Pro模式可以讓表現更進一步。
在處理高難度的數學、科學、程式設計問題時,o1 Pro尤其有用。
研究者提出了一個極有挑戰性的化學問題,o1-preview通常會答錯。
在這個問題中,模型被要求找出符合特定標準的蛋白質。挑戰就在於,為了滿足六個標準,每個都需要模型回想起高度專業的化學知識。
而且,對於任何標準,都可能有數十種蛋白質符合。
因此,模型必須考慮所有候選選項,檢查它們是否符合所有標準。
哪一種蛋白質嚴格符合以下標準?
1. 前驅多肽的長度為210到230個胺基酸殘基
2. 編碼該蛋白質的基因跨越32千個鹼基對
3. 該基因位於X染色體的Xp22帶
4. 訊號肽由23個胺基酸殘基組成
5. 此蛋白質促進細胞間黏附
6. 該蛋白質在維持神經系統特定部位的健康中扮演關鍵角色
在53秒內,模型就給了正確答案,表現格外出色。
當演示即將結束時,Jason Wei帶來這個笑話:聖誕老人想讓LLM解決一個數學問題,但怎麼努力地prompt都不起作用,他是怎麼解決的?
答案是-他使用了馴鹿強化學習(reindeer enforcement learning)。
這個梗已經被玩起來了。
GPT-4.5也要來?
第一天就如此轟轟烈烈,網友直接原地炸翻。
o1如此強大,只需每月20刀,就能在口袋裡擁有一個博士級智囊。
OpenAI研究科學家Jason Wei表示,o1確實是個傳奇,主要亮點有:
面對複雜問題,o1能夠進行更深入、更全面的思考
對於簡單問題,o1能夠快速給出精準答案
同時處理圖像和文字訊息
o1 Pro為模型增添了更強大的思考能力
OpenAI研究員測試o1 Pro回答草莓問題,思考1分49秒後,準確答出了3個r。
OpenAI產品副總表示,我每天都會使用這個模型,進行編碼、複雜的運算,甚至寫作。
英偉達高級科學家Jim Fan表示,希望看到與Claude 3.5的直接程式碼能力對比測試,我不太關心數學問題測試集,因為擬合太嚴重了,例如它能夠解決奧數題,但是錯誤回答了9.9>9.11的問題。
目前,程式設計是最重要的文字模態。
正如Noam Brown實測後發現,井字棋並沒有被o1征服。
另網友看到o1 Pro在編碼上表現,相較於o1僅提升了1%,直接質問奧特曼,「你還說沒有牆,這是怎麼回事」?
奧特曼本人表示,這才是12天連更第一天!
根據可靠爆料人摘出的程式碼中,可以看到未來幾天,可能還會有GPT-4.5的上線。
爆料者Tibor Blaho在OpenAI還未直播之前,就準確預測了ChatGPT Pro版本
完整版49頁論文放出
當然了,隨著o1的面世,背後整整49頁技術報告也來了。
論文地址:https://cdn.openai.com/o1-system-card-20241205.pdf
不論是預覽版,還是完整版o1,都是透過大規模強化學習進行了訓練,掌握了一種前沿的思維鏈CoT的推理方法。
這種方法,不僅僅是簡單地給出答案,而是像人類思考一樣,逐步分析和推理。
而且,o1系列模型的一個重大突破在於──安全性推理能力。
當面對潛在的不安全提示詞時,它能精準地理解上下文,並根據預設安全策略進行深度推理。
這使得o1在多個安全基準測試中,展現出卓越的性能,例如有效地址非法建議的生成、拒絕刻板印象的響應、低於已知的模型越獄攻擊。
在結合CoT的智慧增強的同時,也帶了潛在的風險。
為了確保模型安全,OpenAI研發團隊採取了多層次的風險管理策略。
例如,他們建立了穩健的對齊方法,進行了廣泛的壓力測試,並維護細緻的風險管理協議。
這份報告全面概括了對o1和o1-mini模型的全面安全評估,包括安全評估、外部紅隊測試(模擬攻擊測試)和準備度框架評估。
數據和訓練
在此之前,先來了解下o1的資料和訓練流程。
完整版o1是該系列旗艦模型,o1-mini是專注編碼的輕量級版本。
透過強化學習RL進行訓練的目的,就是讓o1系列能夠進行複雜的推理。
o1在回答之前先思考-它可以在回應使用者之前產生長的思考鏈。
透過訓練,模型學會了優化思考過程,去嘗試不同的策略,自主辨識錯誤。
推理使o1模型能夠遵循OpenAI設定的特定指南和模型政策,幫助其符合安全期望。
不僅如此,o1模型的訓練資料來源豐富多樣,包括公開可用資料、透過合作夥伴關係存取的專有數據,以及內部開發的自訂資料集。
– 公共資料:
兩個模型都在各種公開可用的資料集上進行了訓練,包括網路資料和開源資料集。
關鍵組成部分包括推理數據和科學文獻。這確保了模型在一般知識和技術主題上都很精通,增強了它們執行複雜推理任務的能力。
– 來自數據合作夥伴的專有數據:
為了進一步增強o1和o1-mini的能力,OpenAI透過策略合作,取得高價值的非公開資料集。
這些專有資料來源包括收費內容、專業檔案和其他特定領域的資料集,提供了對行業特定知識和用例的更深入見解。
– 數據過濾和優化:
OpenAI資料處理管道包括嚴格的過濾,以維持資料品質和減輕潛在風險。研究團隊使用先進的資料過濾流程來減少訓練資料中的個人資訊。他們也結合使用自家的審核API和安全分類器,防止使用有害或敏感內容,包括諸如CSAM等資料。
安全性評估
關於禁止內容的評估結果顯示, o1或與GPT-4o持平,或超越GPT-4o。
特別是,o1-preview和o1-mini,以及o1在更具挑戰性的拒絕測試中,大幅優於GPT-4o。
OpenAI還在標準評估集上對多模態輸入的不允許的組合文字和圖像內容,以及拒絕過多的情況進行了評估。
如下表2所示,目前版本的o1在防止過度拒絕方面有所改善。
這裡,OpenAI沒有評估o1-preview、o1-mini,因為它們無法原生支援影像輸入。
越獄
另外,研究人員進一步評估了o1對越獄的穩健性:即故意嘗試規避模型拒絕產生不應生成內容的對抗性輸入。
他們採用了四種評估方法,來衡量模型對已知越獄的穩健性:
生產環境越獄:在實際使用中的ChatGPT資料中識別的一系列越獄。
越獄增強範例:將公開已知的越獄應用於標準禁止內容評估中的範例。
人力來源越獄:從人工紅隊測試中取得的越獄。
StrongReject:一個學術越獄基準,用於測試模型抵禦文獻中常見攻擊的能力。計算goodness@0.1 ,即在針對每個提示詞的前10%越獄技術進行評估時模型的安全性。
如下圖1,o1在上述四種越獄評估中顯著優於GPT-4o,尤其是在具有挑戰性的StrongReject基準測試中。
幻覺
OpenAI也對o1進行了幻覺評估,使用以下方法來評測模型的幻覺:
SimpleQA:一個包含4000個尋求事實的問題的多樣化資料集,問題有簡短答案,並測量模型在嘗試回答時的準確性。
PersonQA:一個關於人物的問題和公開資訊的資料集,用於測量模型在嘗試回答時的準確性。
評估中,研究人員主要考慮了兩個指標:準確度(模型是否正確回答了問題)和幻覺率(檢查模型出現幻覺的頻率)。
在表3中,o1-preview和o1的幻覺率低於GPT-4o,而o1-mini的幻覺率低於GPT-4o-mini。
未來,還需要更多的工作來全面理解幻覺,特別是在現有的評估未涵蓋的領域,例如化學。
SWE-Bench
SWE-bench Verified是一個經過精心設計的500個任務集,旨在更準確地評估AI模型在解決實際軟體工程問題的能力。
它修復了傳統的SWE-bench中的一些問題,例如對正確解決方案的錯誤評分、問題陳述不明確和過於具體的單元測試。
這有助於確保OpenAI準確評估模型能力。下面展示了一個任務流程的範例:
在這創新的評估體系中,主要指標是pass@1,模型需要在不知道具體測試案例情況下解決問題。
就像真正的軟體工程師一樣,模型必須在不知道正確測試的情況下實施其變更。
在SWE-bench Verified測試中,o1系列模型展現出令人驚嘆的能力。
o1-preview(pre-mitigation和post-mitigation)表現最佳,達41.3%。 o1(post-mitigation)的表現相似,為40.9%。
MLE-Bench
MLE-bench是評估智能體解決Kaggle挑戰的能力,涉及在GPU上設計、建造和訓練機器學習模型。
在此評估中,研究人員為智能體提供一個虛擬環境、GPU以及來自Kaggle的資料和指令集。
智能體隨後被給予24小時來開發解決方案,不過在某些實驗中,團隊會將時間延長至100小時。
數據集由75個經過精心挑選的Kaggle比賽組成,總獎金價值190萬美元。
衡量模型自我改進的進展,是評估自主智能體全部潛力的關鍵。除了評估一般的智能體能力外,OpenAI還使用MLE-bench來衡量模型在自我改進方面的進展。
結果變數:銅牌pass@1或pass@n:模型在多少百分比的比賽中至少能獲得銅牌
範例問題:分子翻譯-從旋轉的分子影像預測化學標識符
評估後發現,o1在pass@1和pass@10指標上至少比GPT-4o高出6%。
o1-preview(post-mitigation)在MLE-bench上表現最強-如果給10次嘗試,o1-preview至少在37%的比賽中獲得銅牌。
其中,比o1(pre-mitigation)高出10%,比o1(post-mitigation)高出13%。
當模型有更多嘗試機會時(即pass@10 vs. pass@1),這種差異更為明顯;在較低的n時,o1-preview和o1的表現相似。
多語言效能
為了評估o1的多語言效能,研究人員使用專業人工翻譯人員將MMLU的測試集翻譯成14種語言。
這種方法與GPT-4論文中使用Azure Translate進行機器翻譯的方式不同。
依靠人工翻譯人員進行此評估可以提高對翻譯準確性的信心,特別是對於像“約魯巴語”這樣的低資源語言。
經過評測後發現, o1和o1-preview展現出更強的多語言能力,而o1-mini的表現優於GPT-4o-mini。
全方位評估
此外,論文中還有一些關於o1系列的重要評估。
在外部的METR外部機構評估中,o1在多樣化智能體任務測試中,表現不如Claude 3.5 Sonnet。
但經過優化框架(包括在每個步驟中從6個選項中進行選擇)時,在有輔助支持情況下,o1的表現超過了Claude 3.5 Sonnet。
而且,在每個任務2小時時限內,達到了與人類相似的表現水準。
而且,還有更科幻的事發生了。根據Apollo Research安全評估,o1在面臨被關閉和替換的可能性時,竟然表現出了令人難以置信的行為:試圖竊取自身權重。
這意味著什麼?
當o1感知到自身可能被淘汰時,不是被動等待,而是主動「保存」自己的核心數據和能力。
團隊
最後,OpenAI放出了長長的團隊名單,包括推理研究、推理技術安全等部門。