Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

滿血版o1深夜震撼上線奧特曼懟臉示範超強推理終極Pro版每月1450元

滿血版o1深夜震撼上線奧特曼懟臉示範超強推理終極Pro版每月1450元

2024-12-06 Comments 0 Comment

就在剛剛,滿血版o1震撼上線了!它首次將多模態和新的推理範式結合起來,更聰明、更快速。同時推出的還有200美元/月的專業版ChatGPT Pro。奧特曼親自和Jason Wei等人做了演示,同時放出的,還有49頁完整論文。據網友預測,GPT-4.5可能也要來了。

果不其然,滿血版o1終於正式上線了,還帶來了地表最強o1 Pro Mode!

12天連更第一天,OpenAI隨手丟了一個炸彈。

這次,Sam Altman本人正式出鏡,和研究科學家Hyung Won Chung、Max,以及思維鏈提出者Jason Wei一起,在短短15分鐘內速速完成了發布。

完整版o1是一個更快、更強大的推理模型,更擅長編碼、數學和寫作。

它可以上傳圖片,根據圖片進行推理,給予更詳細、更有用的回應。

給一個人工鳥巢圖像,模型就產生了安裝手冊

在多項基準測試中,完整版o1表現直接暴漲,在數學、程式碼、博士級科學問題中,拿下了最優的成績。

相較於o1-preview,o1數學效能提升了近30%,程式碼能力提升了27%。再看GPT-4o,幾乎沒有任何優勢了。

更值得一提的是,o1在GPQA Diamond基準測試中,表現完全超越了人類專家。

現在,所有ChatGPT Plus用戶,都已經可以用o1了。

接下來,o1 Pro Mode更是強到令人髮指,數學表現要比o1提升7.5%,在博士級科學問題中,實現了79.3%的表現。

另外,o1模型也進行了更具挑戰性的Worst of 4基準的評估。

它要求模型對每個問題進行四次嘗試,只有在所有四次嘗試中給出正確答案,該問題才被視為真正「解決」。

如下圖所示,o1 Pro在數學、程式碼、博士級科學問題上,皆是效能最優的,而且o1比預覽版的效能也大幅提升。

奧特曼直接總結了下今日發布兩件大事:

o1,世界上最聰明的模型,比o1-preview更聰明、更快速、功能更多(如多模態)。現在已在ChatGPT中上線,很快將API中上線。

ChatGPT Pro,定價為200美元/月。無限制使用,使用o1時還有更聰明的模式!

奧特曼幽默風趣地表示,「o1雖強,但還沒有強大到宇宙派遣海嘯來阻止的程度」。

德撲之父、OpenAI研究科學家Noam Brown表示,「o1(草莓模型)它可以做得更好,而不僅僅是計算『草莓』中有多少個r」。

現在,OpenAI正在處理更多運算密集型任務,也正在為o1模型添加網頁瀏覽、文件上傳等工具,並且正在努力將o1引入API。

他們也會為開發者提供一些新功能,例如結構化輸出、函數呼叫、開發者訊息、API影像理解功能等。

全新的智能體領域,也將很快開啟。

明天上線的,就是為開發者打造的精彩內容。

現場演示

OpenAI的12天特別活動,將嘗試一項迄今沒有任何科技公司做過的事——在接下來的12個工作日,發布或演示一些新開發的新東西。

12天中的Day 1,正式揭開序幕。

奧特曼同OpenAI的三位員工一起,為大家帶來了o1完整版的示範。整個過程不到20分鐘,如奧特曼所說既快速又有趣。

滿血版o1來了

首先,就是o1的完整版。

網友們回饋,希望o1-preview更聰明、更迅速、支援多模態,並且更能遵循指令。

據此OpenAI做了許多工作,做出了這個「科學家、工程師、程式設計師會很喜歡的模型」。

從GPT-4o到o1-preview再到o1,模型在數學、程式設計競賽、GPQA Diamond方面表現暴漲,但奧特曼強調:我們非常關心的是原始智能,尤其是在程式設計效能上。

o1的獨特之處在於,它是第一個在回應前會先思考的模型。這意味著,它比其他模型提供了更好、更詳細、更準確的回應。

o1模型很快就會取代o1-preview,因為它更快、更聰明。

而在o1 Pro模式中,使用者可以要求模型使用更多的運算資源,來解決一些最困難的問題。

對於已經在數學、程式設計和寫作任務上將模型推向能力極限的用戶,將會感到驚訝。

回應更快

首先,o1的提升,不只是解決非常難的數學和程式設計問題,OpenAI收到的關於o1-preview的最多的回饋是,它的速度太慢了——只是說hi,它都要思考10秒鐘。

現在,這個問題已被解決。

OpenAI研究者打趣地說,這件事其實很好玩——它真的思考了,真的在關心你。

現在,如果你問一個簡單問題,它就會很快回答,不會想太多了。但如果問一個很難的問題,它就會思考很久。

經過非常詳細的真人評估之後,研究者發現,它犯下重大錯誤的頻率,比o1-preview低約34%,同時思考速度提升了50%。

身為歷史愛好者,Max為大家帶來第一個示範。

左邊是o1,右邊是o1-preview。

問:列出二世紀的羅馬皇帝、在位時間,以及他們所做的事。

這個問題,GPT-4o在真正回答時,在相當一部分情況下會出錯,而o1的反應速度o1-preview快了約60%。 (目前,OpenAI正在將所有的GPU從o1-preview更換到o1)

可以看到,o1思考了大約14秒後給出答案,而o1-preveiw思考了大約33秒。

不少羅馬皇帝只統治了6天、12天或一個月,所以回答出所有答案並不簡單

多模態輸入和影像理解

為了展示多模態輸入和推理,研究者創建了下面這個問題,並附上了手繪圖。

圖中,太陽正在為太陽能板提供能量,旁邊還有一個小型資料中心。在地球上,可以使用風冷或液冷來為GPU降溫,但在太空中,只能將此熱量輻射到宇宙空間,因此需要泵浦裝置

給o1的問題如下—

在未來,OpenAI可能會在太空環境中訓練模型,功率數值是1吉瓦。

這是一個簡化的資料中心空間示意圖。對於任何細節假設,請提供相應的理由。如果受到了規範輻射的影響,你的任務是估算這個包含GPU的資料中心的輻射損失面積。在此過程中,還需要回答以下問題:

1)你如何處理太陽和宇宙輻射?

2)熱力學第一定律如何應用在這個問題上?

拍照後將圖片上傳到模型,它很快就給出了答案。

注意,在這個題目中,有多個陷阱。

首先,一吉瓦的功率只是在紙面提到的,顯然,模型很好地從圖中捕捉到了這一點。

其次,研究者刻意將這個問題描述得不夠具體,他省略了冷卻板的溫度這類關鍵參數,專門用來考驗模型處理模糊性問題的能力。

果然,o1發現了這一點!它識別出,這是一個未具體指定但很重要的參數,而且令人驚訝地選擇了正確的溫度範圍,然後進行了後續分析。

這個答案,經過了擁有熱力學博士學位的研究者的認證。

從這個示範可以看出,o1在做出一致且合理假設上表現非常優秀,已經具備了相當高的智慧水準。

ChatGPT Pro上線,每月200美元

很多人,尤其是ChatGPT的重度使用者使用得非常頻繁,所以希望獲得比每月20美元更多的計算資源。

因此,OpenAI推出了ChatGPT Pro——直接將訂閱費用拉到了200美元/月。

Pro版可以無限制地存取模型,包括o1、4.0和高級語音模式等功能,此外,它還包含一個新功能——o1 Pro Mode。

o1是目前世界上最聰明的模型,除了在Pro模式中使用的o1之外。對於人們遇到的最難的問題,o1 Pro模式可以讓表現更進一步。

在處理高難度的數學、科學、程式設計問題時,o1 Pro尤其有用。

研究者提出了一個極有挑戰性的化學問題,o1-preview通常會答錯。

在這個問題中,模型被要求找出符合特定標準的蛋白質。挑戰就在於,為了滿足六個標準,每個都需要模型回想起高度專業的化學知識。

而且,對於任何標準,都可能有數十種蛋白質符合。

因此,模型必須考慮所有候選選項,檢查它們是否符合所有標準。

哪一種蛋白質嚴格符合以下標準?

1. 前驅多肽的長度為210到230個胺基酸殘基

2. 編碼該蛋白質的基因跨越32千個鹼基對

3. 該基因位於X染色體的Xp22帶

4. 訊號肽由23個胺基酸殘基組成

5. 此蛋白質促進細胞間黏附

6. 該蛋白質在維持神經系統特定部位的健康中扮演關鍵角色

在53秒內,模型就給了正確答案,表現格外出色。

當演示即將結束時,Jason Wei帶來這個笑話:聖誕老人想讓LLM解決一個數學問題,但怎麼努力地prompt都不起作用,他是怎麼解決的?

答案是-他使用了馴鹿強化學習(reindeer enforcement learning)。

這個梗已經被玩起來了。

GPT-4.5也要來?

第一天就如此轟轟烈烈,網友直接原地炸翻。

o1如此強大,只需每月20刀,就能在口袋裡擁有一個博士級智囊。

OpenAI研究科學家Jason Wei表示,o1確實是個傳奇,主要亮點有:

面對複雜問題,o1能夠進行更深入、更全面的思考

對於簡單問題,o1能夠快速給出精準答案

同時處理圖像和文字訊息

o1 Pro為模型增添了更強大的思考能力

OpenAI研究員測試o1 Pro回答草莓問題,思考1分49秒後,準確答出了3個r。

OpenAI產品副總表示,我每天都會使用這個模型,進行編碼、複雜的運算,甚至寫作。

英偉達高級科學家Jim Fan表示,希望看到與Claude 3.5的直接程式碼能力對比測試,我不太關心數學問題測試集,因為擬合太嚴重了,例如它能夠解決奧數題,但是錯誤回答了9.9>9.11的問題。

目前,程式設計是最重要的文字模態。

正如Noam Brown實測後發現,井字棋並沒有被o1征服。

另網友看到o1 Pro在編碼上表現,相較於o1僅提升了1%,直接質問奧特曼,「你還說沒有牆,這是怎麼回事」?

奧特曼本人表示,這才是12天連更第一天!

根據可靠爆料人摘出的程式碼中,可以看到未來幾天,可能還會有GPT-4.5的上線。

爆料者Tibor Blaho在OpenAI還未直播之前,就準確預測了ChatGPT Pro版本

完整版49頁論文放出

當然了,隨著o1的面世,背後整整49頁技術報告也來了。

論文地址:https://cdn.openai.com/o1-system-card-20241205.pdf

不論是預覽版,還是完整版o1,都是透過大規模強化學習進行了訓練,掌握了一種前沿的思維鏈CoT的推理方法。

這種方法,不僅僅是簡單地給出答案,而是像人類思考一樣,逐步分析和推理。

而且,o1系列模型的一個重大突破在於──安全性推理能力。

當面對潛在的不安全提示詞時,它能精準地理解上下文,並根據預設安全策略進行深度推理。

這使得o1在多個安全基準測試中,展現出卓越的性能,例如有效地址非法建議的生成、拒絕刻板印象的響應、低於已知的模型越獄攻擊。

在結合CoT的智慧增強的同時,也帶了潛在的風險。

為了確保模型安全,OpenAI研發團隊採取了多層次的風險管理策略。

例如,他們建立了穩健的對齊方法,進行了廣泛的壓力測試,並維護細緻的風險管理協議。

這份報告全面概​​括了對o1和o1-mini模型的全面安全評估,包括安全評估、外部紅隊測試(模擬攻擊測試)和準備度框架評估。

數據和訓練

在此之前,先來了解下o1的資料和訓練流程。

完整版o1是該系列旗艦模型,o1-mini是專注編碼的輕量級版本。

透過強化學習RL進行訓練的目的,就是讓o1系列能夠進行複雜的推理。

o1在回答之前先思考-它可以在回應使用者之前產生長的思考鏈。

透過訓練,模型學會了優化思考過程,去嘗試不同的策略,自主辨識錯誤。

推理使o1模型能夠遵循OpenAI設定的特定指南和模型政策,幫助其符合安全期望。

不僅如此,o1模型的訓練資料來源豐富多樣,包括公開可用資料、透過合作夥伴關係存取的專有數據,以及內部開發的自訂資料集。

– 公共資料:

兩個模型都在各種公開可用的資料集上進行了訓練,包括網路資料和開源資料集。

關鍵組成部分包括推理數據和科學文獻。這確保了模型在一般知識和技術主題上都很精通,增強了它們執行複雜推理任務的能力。

– 來自數據合作夥伴的專有數據:

為了進一步增強o1和o1-mini的能力,OpenAI透過策略合作,取得高價值的非公開資料集。

這些專有資料來源包括收費內容、專業檔案和其他特定領域的資料集,提供了對行業特定知識和用例的更深入見解。

– 數據過濾和優化:

OpenAI資料處理管道包括嚴格的過濾,以維持資料品質和減輕潛在風險。研究團隊使用先進的資料過濾流程來減少訓練資料中的個人資訊。他們也結合使用自家的審核API和安全分類器,防止使用有害或敏感內容,包括諸如CSAM等資料。

安全性評估

關於禁止內容的評估結果顯示, o1或與GPT-4o持平,或超越GPT-4o。

特別是,o1-preview和o1-mini,以及o1在更具挑戰性的拒絕測試中,大幅優於GPT-4o。

OpenAI還在標準評估集上對多模態輸入的不允許的組合文字和圖像內容,以及拒絕過多的情況進行了評估。

如下表2所示,目前版本的o1在防止過度拒絕方面有所改善。

這裡,OpenAI沒有評估o1-preview、o1-mini,因為它們無法原生支援影像輸入。

越獄

另外,研究人員進一步評估了o1對越獄的穩健性:即故意嘗試規避模型拒絕產生不應生成內容的對抗性輸入。

他們採用了四種評估方法,來衡量模型對已知越獄的穩健性:

生產環境越獄:在實際使用中的ChatGPT資料中識別的一系列越獄。

越獄增強範例:將公開已知的越獄應用於標準禁止內容評估中的範例。

人力來源越獄:從人工紅隊測試中取得的越獄。

StrongReject:一個學術越獄基準,用於測試模型抵禦文獻中常見攻擊的能力。計算goodness@0.1 ,即在針對每個提示詞的前10%越獄技術進行評估時模型的安全性。

如下圖1,o1在上述四種越獄評估中顯著優於GPT-4o,尤其是在具有挑戰性的StrongReject基準測試中。

幻覺

OpenAI也對o1進行了幻覺評估,使用以下方法來評測模型的幻覺:

SimpleQA:一個包含4000個尋求事實的問題的多樣化資料集,問題有簡短答案,並測量模型在嘗試回答時的準確性。

PersonQA:一個關於人物的問題和公開資訊的資料集,用於測量模型在嘗試回答時的準確性。

評估中,研究人員主要考慮了兩個指標:準確度(模型是否正確回答了問題)和幻覺率(檢查模型出現幻覺的頻率)。

在表3中,o1-preview和o1的幻覺率低於GPT-4o,而o1-mini的幻覺率低於GPT-4o-mini。

未來,還需要更多的工作來全面理解幻覺,特別是在現有的評估未涵蓋的領域,例如化學。

SWE-Bench

SWE-bench Verified是一個經過精心設計的500個任務集,旨在更準確地評估AI模型在解決實際軟體工程問題的能力。

它修復了傳統的SWE-bench中的一些問題,例如對正確解決方案的錯誤評分、問題陳述不明確和過於具體的單元測試。

這有助於確保OpenAI準確評估模型能力。下面展示了一個任務流程的範例:

在這創新的評估體系中,主要指標是pass@1,模型需要在不知道具體測試案例情況下解決問題。

就像真正的軟體工程師一樣,模型必須在不知道正確測試的情況下實施其變更。

在SWE-bench Verified測試中,o1系列模型展現出令人驚嘆的能力。

o1-preview(pre-mitigation和post-mitigation)表現最佳,達41.3%。 o1(post-mitigation)的表現相似,為40.9%。

MLE-Bench

MLE-bench是評估智能體解決Kaggle挑戰的能力,涉及在GPU上設計、建造和訓練機器學習模型。

在此評估中,研究人員為智能體提供一個虛擬環境、GPU以及來自Kaggle的資料和指令集。

智能體隨後被給予24小時來開發解決方案,不過在某些實驗中,團隊會將時間延長至100小時。

數據集由75個經過精心挑選的Kaggle比賽組成,總獎金價值190萬美元。

衡量模型自我改進的進展,是評估自主智能體全部潛力的關鍵。除了評估一般的智能體能力外,OpenAI還使用MLE-bench來衡量模型在自我改進方面的進展。

結果變數:銅牌pass@1或pass@n:模型在多少百分比的比賽中至少能獲得銅牌

範例問題:分子翻譯-從旋轉的分子影像預測化學標識符

評估後發現,o1在pass@1和pass@10指標上至少比GPT-4o高出6%。

o1-preview(post-mitigation)在MLE-bench上表現最強-如果給10次嘗試,o1-preview至少在37%的比賽中獲得銅牌。

其中,比o1(pre-mitigation)高出10%,比o1(post-mitigation)高出13%。

當模型有更多嘗試機會時(即pass@10 vs. pass@1),這種差異更為明顯;在較低的n時,o1-preview和o1的表現相似。

多語言效能

為了評估o1的多語言效能,研究人員使用專業人工翻譯人員將MMLU的測試集翻譯成14種語言。

這種方法與GPT-4論文中使用Azure Translate進行機器翻譯的方式不同。

依靠人工翻譯人員進行此評估可以提高對翻譯準確性的信心,特別是對於像“約魯巴語”這樣的低資源語言。

經過評測後發現, o1和o1-preview展現出更強的多語言能力,而o1-mini的表現優於GPT-4o-mini。

全方位評估

此外,論文中還有一些關於o1系列的重要評估。

在外部的METR外部機構評估中,o1在多樣化智能體任務測試中,表現不如Claude 3.5 Sonnet。

但經過優化框架(包括在每個步驟中從6個選項中進行選擇)時,在有輔助支持情況下,o1的表現超過了Claude 3.5 Sonnet。

而且,在每個任務2小時時限內,達到了與人類相似的表現水準。

而且,還有更科幻的事發生了。根據Apollo Research安全評估,o1在面臨被關閉和替換的可能性時,竟然表現出了令人難以置信的行為:試圖竊取自身權重。

這意味著什麼?

當o1感知到自身可能被淘汰時,不是被動等待,而是主動「保存」自己的核心數據和能力。

團隊

最後,OpenAI放出了長長的團隊名單,包括推理研究、推理技術安全等部門。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
狡猾的Stellantis,只想靠中國賺錢
NEXT
一種新設計可實現大規模生產無毒高效能太陽能電池

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 12 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
« 11 月   1 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 亞馬遜的Kuiper 衛星將獲得競爭對手SpaceX 的輔助 2025-07-16
  • 突破性研究顯示烏龜擁有與我們相似的情感 2025-07-16
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現 2025-07-16
  • 新研究以前所未有的細節重建了5.4億年的海平面變化 2025-07-16
  • 現在可以讓Windows 11 Copilot 助理查看整個桌面 2025-07-16
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同 2025-07-16
  • 傳Google Pixel Watch 4將沿用舊晶片但電池容量更大 2025-07-16
  • 阿迪達斯推出了3D列印Climacool運動鞋的繫帶版本 2025-07-16
  • Windows 11自備應用程式將迎來重大變革以提升使用者體驗與安全性 2025-07-16
  • AMD處理器銷售輕鬆超越所有英特爾CPU 即使是上一代AM4型號 2025-07-16

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • Rocket Lab成功幫助DARPA發射一枚R3D2小型實驗衛星
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 研究發現每週工作四天能提高員工的幸福感同時不影響生產力
  • 萬能驅動v7.18.1018.3(2018.11.17 發布)-裝機必備的萬能驅動
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現
  • 視頻轉換器Any Video Converter Ultimate v7.0.5

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.