Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI全新o1模型評測:程式碼編寫、遊戲製作等能力“驚艷” 事實性知識卻“翻了車”

OpenAI全新o1模型評測:程式碼編寫、遊戲製作等能力“驚艷” 事實性知識卻“翻了車”

2024-09-15 Comments 0 Comment

傳說中的「草莓」模型今天在沒有任何預告下忽然上線了! OpenAI最新發布的模型名為o1,是系列推理模型的首批版本,現階段推出的是o1-preview(預覽版)和o1-mini(迷你版)。

目前,o1-preview和o1-mini已經對ChatGPT Plus和Team訂閱用戶開放,而Enterprise和Edu用戶將於下週初獲得存取權限。 OpenAI表示,它計劃向ChatGPT的所有免費用戶提供o1-mini存取權限,但尚未確定發布日期。

根據OpenAI介紹,在解決問題的能力方面,o1模型比以往任何模型都更接近人類思維,並且能夠「推理」數學、編碼和科學任務。

為了驗證新模型的能力是否正如OpenAI所宣稱的那麼強大,《每日經濟新聞》記者從經典“草莓測試”、代碼編寫、小遊戲製作、數學與經濟學,以及事實性知識這五大維度對o1 -preview模型進行了測試。

結果顯示,o1-preview表現出了超越OpenAI先前發布的大模型的程式設計和數學推理能力。例如,o1-preview能夠編寫出流暢運行的程式碼,並且在複雜環境中依然能夠自行推理出解決方案。而且,記者在測試過程中也感覺到,o1-preview在人性化方面也有很大的提升,表現出了真人般的思考。不過,新模型並非毫無缺點,在事實性知識測驗就「翻車」了。

當地時間9月12日,OpenAI發布了一款名為o1的新模型,這是其計劃中一系列「推理」模型中的第一個版本,也是此前業界盛傳已久的「草莓」模型。

圖片來源:X平台
圖片來源:X平台

對OpenAI來說,o1代表著它朝著類人AI的目標又邁出了一步。 OpenAI認為,o1代表著一種全新的能力,這項能力被認為如此重要,以至於公司決定從目前的GPT-4模型重新開始,完全放棄了「GPT」品牌,從1開始命名。

OpenAI表示,將從目前的GPT-4模型重新開始,“將計數器重置為1”,甚至放棄了迄今為止定義了聊天機器人乃至整個生成式AI熱潮的“GPT”品牌。 o1建立了一個能夠透過一系列離散步驟,謹慎而合乎邏輯地解決問題的系統,每個步驟都建立在上一個步驟的基礎上,類似於人類的推理方式。

OpenAI首席科學家Jakub Pachocki表示,先前的模型在收到用戶詢問時會立即開始回答。 「而這個模型(指的是o1)會慢慢來。它思考問題,並嘗試分解問題,尋找角度,努力提供最佳答案。」這就像大多數人在幼年時被父母所要求的那樣,先想好再說話。

OpenAI表示,o1在競賽程式設計問題(Codeforces)中排名第89個百分點,在美國數學奧林匹克競賽(AIME)預選賽中位列美國前500名學生之列,並且在物理、生物和化學問題的基準測試(GPQA)中超過了人類博士水平的準確度。

在OpenAI發布的研究和部落格文章中,o1看起來「推理」能力十分強大,不僅可解決高級數學和編碼問題,還能解密複雜的密碼,以及解答來自專家學者們關於遺傳學、經濟學和量子物理學的複雜問題。大量圖表顯示,在內部評估中,o1在編碼、數學和各個科學領域的問題上已經超越了公司最先進的語言模型GPT-4o,甚至可能超越了人類。

                            圖片來源:OpenAI官網
                            圖片來源:OpenAI官網

為了深入了解o1模型的強大能力,《每日經濟新聞》記者從經典草莓測試、代碼編寫、小遊戲製作、數學與經濟學,以及事實性知識這五大維度對o1-preview模型進行了測試。

1)草莓測試

首先,記者用之前幾乎所有大模型都「翻車」的一道簡單題目進行了測試,即「單字strawberry裡面到底有幾個r」。從產生的結果來看,o1-preview還是帶來了一點小驚喜的。

2)程式碼編寫

記者首先向o1-preview詢問了一個線上程式設計平台leetcode裡最有名的簡單演算法問題:Two Sum(兩數總和)問題。 o1給了很詳盡的推理過程和答案。

隨後記者故意要求優化答案,o1在思考9秒後意識到自己提供的已經是最優解法了,並就此進行了說明,另外還很「貼心」地提供了一個次優解。而在先前記者對其他模型的測試中,這些模型只會道歉然後將答案改為次優解。

3)小遊戲製作

在o1模型的示範中,OpenAI示範「用一句話編寫小遊戲」的功能。測試過程中,記者讓o1-preview幫忙介紹好用的程式碼工具,並協助寫一個乒乓小遊戲。

o1-preview僅用了19秒就給出了一份能夠流暢運行的程式碼,並且附上了學習指南和鼓勵的話語,非常地人性化。

為避免o1-preview作弊,使用的是記憶能力,而不是使用推理能力進行回答,記者還請求o1-preview更換了一個代碼運行環境:jupyter note。這個運行環境是針對資料分析進行特化的python環境,開發人員基本上不會使用此環境開發小遊戲。

經過思考後,o1依然給了一個可以運行的程式碼。不過,相較於之前的程式碼,這份答案有著不少的bug,但這也從側面說明這確實是思考出來的答案,而不是訓練過程中加入的標準答案。

為進一步驗證o1-preview的創新推理能力,記者隨後要求模型在這個小遊戲的基礎上開發一個更複雜有趣的小遊戲。

這下,o1的表現真的有點驚喜。根據乒乓遊戲的碰撞機制,模型自行迭代出了一個向上登高的跳躍遊戲。一般其他大模型需要用戶把需求描述清楚才會輸出一個比較好的答案,但記者在這次測試中沒有進行任何的額外提示,o1就輸出了一個能流暢運行,並且在記者眼中看來也足夠有趣的小遊戲。

4)科學類測試

在科學類測驗方面,記者重點測試了o1-preview在數學和經濟上的表現。

首先,記者拋出的是一個數學推理問題,向o1-preview詢問解決歐拉方程式有限時間爆破的可能方法(這是著名華裔數學家、菲爾茲獎得主陶哲軒教授本週才發表的討論文章) 。

o1雖然沒有給出明確解法,但卻提供了一個解題思路,這一思路和陶哲軒教授文章部分吻合(雖然很少)。

在經濟學方向上,記者向o1-preview詢問了一個複雜的經濟系統問題。從給予的回饋看,基本上沒有什麼太大的問題,整體邏輯清晰,思考維度也是多樣化的,給出的數學公式雖然有一點小差錯但是無傷大體。

5)事實性知識與語言理解

在這一環節,記者向o1-preview詢問了明朝第一任皇帝的趣事,但o1就將趣事理解成了歷史上實際發生過的事情,將朱元璋的歷史故事整個敘述了出來。

同時,記者也將這個問題丟給了GPT-4o模型,作為對比,GPT-4o能很好地理解記者的問題,並講了兩個流傳很廣的民間小故事。

整體來看,OpenAI宣稱o1模型能接近人類水準在某些方面上看起來並不是虛話。

最讓記者驚訝的是,OpenAI將模型思考的過程用文字展示給了用戶,文字思考過程中,大模型大量使用了“我正在”“我認為”“我打算”等話語,感覺更加擬人化,就像一個真人在使用者面前闡述自己的思考邏輯一般。

但這也不代表o1模型就是完美的。 OpenAI也承認,在設計、寫作、編輯文字等方面上,o1遠不如GPT-4o。 o1也沒有瀏覽網頁或處理文件和圖像的能力。

而最讓記者感到頭痛的是,即使是一個很簡單的請求,比如說將輸出結果轉換為中文,o1都會消耗十幾秒鐘的時間來思考,而GPT4o就會很快處理好這一請求。

就算在OpenAI的優勢領域中,o1模型也會突然出現效能下降,模型輸出懶惰的狀況。已離職的OpenAI創始人Karpathy就吐槽道:“它一直拒絕為我解決黎曼假說。模型懶惰仍然是一個主要問題。”

OpenAI表示,公司會在之後的更新中解決這些問題,畢竟現在這只是推理模型的早期預覽。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
GNOME 基金會接受新任執行董事的申請
NEXT
美國或鬆口晶片管製沙烏地阿拉伯明年可望獲得英偉達H200

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 9 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 8 月   10 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 暑假矯正季,讓笑容更閃亮! 2025-07-18
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚? 2025-07-18
  • Firefox新版本將支援Chrome已有多年的WebGPU功能 2025-07-17
  • 彩虹正式上架統信UOS 直接運行Windows應用 2025-07-17
  • 美團高層承諾:將保證美團騎士收入永遠站穩藍領第一梯隊 2025-07-17
  • 科尼賽克CEO直言:電動超跑沒有靈魂我們不造 2025-07-17
  • HTC預告VIVE神秘新品或為首款智慧眼鏡 2025-07-17
  • 據傳PS5 Pro將在明年5月進行性能升級推測為《GTA6》做準備 2025-07-17
  • 德國玩家偏愛A卡銷量佔65%超NV:RX9070XT賣最好 2025-07-17
  • 三星和SK海力士因意外需求推遲DDR4記憶體淘汰計劃 2025-07-17

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚?
  • 思恩時代開業福利
  • 巴西一11歲女孩長了81顆牙齒醫師直呼活久見
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 您可以在Windows 11 24H2 中找回WordPad
  • 一鍵GHOST v2020.07.20 正式版-硬盤版/光盤版/優盤版/軟盤版
  • 暑假矯正季,讓笑容更閃亮!
  • 新研究顯示非洲古老艾草療法可用於對抗結核病

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.