Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI發布首款具備推理能力的模型o1 擁有初步的事實查核能力

OpenAI發布首款具備推理能力的模型o1 擁有初步的事實查核能力

2024-09-13 Comments 0 Comment

OpenAI 正在發布一款名為o1 的新模型,這是計劃中的一系列”推理”模型中的第一個,這些模型經過訓練,可以比人類更快地回答更複雜的問題。它將與o1-mini 同時發布,後者是一個更小、更便宜的版本。沒錯,如果你對人工智慧的傳言很熟悉的話:這就是被炒得沸沸揚揚的草莓模型。

4D572D8282E2B8E7A1C1C8B657C8BA8892404D9B_size75_w1920_h1081.webp

對OpenAI 來說,o1 代表著它對類人人工智慧的更廣泛目標邁進了一步。更實際的是,它在編寫程式碼和解決多步驟問題方面比以前的模型做得更好。但與GPT-4o 相比,它的成本更高,速度更慢。 OpenAI 將這次發布的o1 稱為”預覽版”,以強調它的雛形。

ChatGPT Plus 和Team 用戶從今天開始可以存取o1-preview 和o1-mini,而Enterprise 和Edu 用戶將在下週初造訪。開發者存取o1 的費用非常昂貴:在API 中,o1-preview 每100 萬個輸入令牌(即模型解析的文字區塊)收費15 美元,每100 萬個輸出令牌收費60 美元。相較之下,GPT-4o 的價格為每100 萬個輸入詞組5 美元,每100 萬個輸出詞組15 美元。

OpenAI的研究負責人傑裡-特沃瑞克(Jerry Tworek)告訴我,o1背後的訓練與前代產品有本質區別,不過公司對具體細節含糊其辭。他說,o1″採用了全新的最佳化演算法和專門為其客製化的新訓練資料集”。

OpenAI 正在培訓先前的GPT 模型模仿訓練資料中的模式。在使用o1 時,OpenAI 利用一種名為”強化學習”的技術訓練模型自行解決問題,該技術透過獎懲來​​教導系統。然後,它使用”思維鏈”來處理查詢,這與人類逐步解決問題的方式類似。

OpenAI 表示,由於採用了這種新的訓練方法,模型應該會更加準確。 “我們注意到,這個模型產生幻覺的情況減少了,”Tworek 說。但問題依然存在。 “我們不能說我們解決了幻覺問題”。這個新模型與GPT-4o 不同之處主要在於,它能比前代模型更好地處理複雜問題,如編碼和數學問題,同時也能解釋自己的推理。

OpenAI的首席研究官鮑勃-麥格魯(Bob McGrew)告訴我:「這個模型在解決AP數學考試方面絕對比我強,而我在大學裡輔修的是數學。他說,OpenAI 還用國際數學奧林匹克競賽的資格考試對o1 進行了測試,GPT-4o 只正確解決了13% 的問題,而o1 則達到了83%。

“我們不能說我們解決了幻覺問題”

在被稱為”Codeforces”的線上程式設計競賽中,這種新模型在參賽者中的排名達到了第89位,OpenAI聲稱,這種模型的下一個更新版本將在”物理、化學和生物學領域在具有挑戰性的基準任務中取得與博士生類似的表現”。

同時,o1 在很多方面的能力都不如GPT-4o。它在對世界的實際了解方面做得不夠好。它也不具備瀏覽網頁或處理文件和圖像的能力。儘管如此,該公司仍認為它代表了一種全新的能力。它被命名為o1,表示”將計數器重置回1″。

麥克格魯說:”老實說,我認為我們在傳統命名方面做得很糟糕。所以我希望這是我們邁出的第一步,我們會用更新、更理智的名字,更好地向世界其他地方傳達我們正在做的事情。

McGrew 和Tworek 本週透過視訊通話展示了o1。他們要求它解決這個難題:”當公主的年齡是王子年齡的兩倍時,公主的年齡就是王子年齡的兩倍。王子和公主的年齡是多少?請提供該問題的所有答案”。

模型運算了30 秒鐘,然後給了正確答案。 OpenAI 設計的介面可以在模型思考時顯示推理步驟。讓我印象深刻的並不是它展示了自己的工作–GPT-4o 可以在提示下做到這一點–而是o1 是如何刻意模仿人類的思維。諸如”我很好奇”、”我正在思考”和”好的,讓我看看”這樣的句子營造出一種循序漸進的思考假象。

但這個模型不會思考,更不是人類。那麼,為什麼要把它設計得像人一樣呢?

我很好奇”、”我正在思考”、”好的,讓我看看”等短語會讓人產生一種循序漸進的思考錯覺。

Tworek 認為,OpenAI 並不相信人工智慧模型的思維等同於人類思維。但他說,該介面旨在展示模型如何花更多時間處理和深入解決問題。 “在某些方面,它比之前的模型更有人情味”。

麥克格魯說:”我想你會發現,它有很多讓人感覺有點陌生的地方,但也有讓人感覺出奇人性化的地方。該模型處理查詢的時間有限,因此它可能會說:哦,我沒時間了,讓我快點找到答案吧。

大型語言模型並不完全聰明。它們本質上只是根據從大量數據中學到的模式來預測單字序列以提供答案。就拿ChatGPT 來說,它往往會誤認為”草莓”這個詞只有兩個R,因為它沒有正確地分解這個詞。不過,新的o1 模型已經可以正確地回答這個問題。

據報道,OpenAI希望以令人瞠目的15​​00億美元估值籌集更多資金,其發展動能取決於更多的研究突破。該公司之所以將推理能力引入LLM,是因為它看到了自主系統或代理的未來,它們能夠代表你做出決策並採取行動。

對人工智慧研究人員來說,破解推理是邁向人類智慧水平的重要一步。他們的想法是,如果一個模型不僅能進行模式識別,還能在醫學和工程等領域實現突破。但目前,o1 的推理能力相對較慢,不像代理,開發人員使用起來也很昂貴。

麥格魯說:「我們已經花了好幾個月的時間來研究推理,因為我們認為這實際上是關鍵性的突破。從根本上說,這是模型的一種新模式,以便能夠解決真正困難的問題,從而向人類智慧水準邁進。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
新華社:支付各方加強互聯互通共譜高效包容“協奏曲”
NEXT
Fedora 42將再次嘗試使用新版Anaconda安裝程式的Web UI

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 9 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 8 月   10 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 【美學小課堂】臉部輪廓解析:外輪廓×內輪廓×T區立體感|一次搞懂輪廓固定關鍵 2025-07-15
  • 美國商務部正在調查無人機和多晶矽進口 2025-07-15
  • 女子網購未殺菌現擠鮮奶直接喝感染布魯氏菌病反覆發燒咳嗽 2025-07-15
  • 索尼手機縮減歐洲市場業務已撤出芬蘭 2025-07-15
  • 特斯拉Robotaxi服務區域形狀引質疑媒體:迎合馬斯克惡趣味 2025-07-15
  • 深圳地鐵配送機器人首跑自己會搭地鐵送貨 2025-07-15
  • 格陵蘭居民一覺醒來看到一座冰山豎在門口 2025-07-15
  • Google 確認計劃將ChromeOS 合併到Android 中 2025-07-15
  • Google Chrome 將終止對macOS 11 Big Sur 的支持 2025-07-15
  • 馬來西亞擬要求高級AI晶片出口需申請許可防止轉售給中國 2025-07-15

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • CCleaner全家桶激活密鑰
  • 美國FAA擬收"天空過路費" 馬斯克發射火箭一年或多交上百萬美元
  • Photon Matrix:針對蚊子的“防空系統”
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • 研究發現每週工作四天能提高員工的幸福感同時不影響生產力
  • 視頻轉換器Any Video Converter Ultimate v7.0.5
  • Anduril 宣布與Meta 合作為美國軍方開發XR 產品
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.