Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI 的新推理AI 模型會產生更多幻覺

OpenAI 的新推理AI 模型會產生更多幻覺

2025-04-19 Comments 0 Comment

OpenAI近期推出的o3 和o4-mini AI 模式在許多方面都達到了領先水準。然而,這些新模型仍然會產生幻覺,或者說,會虛構事物——事實上,它們比OpenAI 的幾個老模型更容易產生幻覺。

幻覺已被證明是人工智慧領域最難解決的問題之一,甚至會影響到當今表現最佳的系統。從歷史上看,每個新模型在幻覺方面都會略有改進,幻覺程度比前代降低。但o3 和o4-mini 似乎並非如此。

根據OpenAI 的內部測試,所謂的推理模型o3 和o4-mini 比該公司先前的推理模型o1、o1-mini 和o3-mini 以及OpenAI 傳統的「非推理」模型(如GPT-4o)產生幻覺的頻率更高。

也許更令人擔憂的是,ChatGPT 製造商並不真正知道為什麼會發生這種情況。

OpenAI 在其針對o3 和o4-mini 的技術報告中寫道,「需要更多研究」來理解為什麼隨著推理模型的擴展,幻覺會變得越來越嚴重。 O3 和o4-mini 在某些領域表現較佳,包括與編碼和數學相關的任務。但由於它們“總體上提出了更多主張”,因此報告指出,它們經常做出“更準確的主張以及更多不準確/幻覺的主張”。

OpenAI 發現,o3 在PersonQA(該公司用於衡量模型對人類認知準確度的內部基準)上回答33% 的問題時產生了幻覺。這大約是OpenAI 之前的推理模型o1 和o3-mini 的幻覺率的兩倍,後兩者的得分分別為16% 和14.8%。 o4-mini 在PersonQA 上的表現較差——48% 的時間都出現了幻覺。

非營利人工智慧研究實驗室Transluce進行的第三方測試也發現,o3傾向於在得出答案的過程中編造行動。在一個例子中,Transluce觀察到o3聲稱它在2021款MacBook Pro上「在ChatGPT之外」運行了程式碼,然後將數字複製到答案中。雖然o3可以使用一些工具,但它無法做到這一點。

Transluce 研究員、前OpenAI 員工Neil Chowdhury 表示:“我們的假設是,用於o 系列模型的強化學習可能會放大那些通常可以通過標準後訓練流程緩解(但不能完全消除)的問題。”

Transluce 聯合創始人Sarah Schwettmann 補充說,o3 的幻覺率可能會使其實用性降低。

史丹佛大學兼職教授、技能提升新創公司Workera 執行長Kian Katanforoosh 告訴TechCrunch,他的團隊已經在程式設計工作流程中測試o3,並且發現它比競爭對手更勝一籌。然而,Katanforoosh 表示,o3 往往會產生網站連結失效的幻覺。該模型會提供一個點擊後無法正常工作的連結。

幻覺或許能幫助模型產生有趣的想法,並在「思考」中發揮創造力,但也會讓一些模型在準確性至上的市場中難以被企業接受。例如,律師事務所可能不會喜歡在客戶合約中插入大量事實錯誤的模型。

提升模型準確率的一個有效方法是賦予模型網路搜尋功能。 OpenAI 的GPT-4o 具備網路搜尋功能,在SimpleQA(OpenAI 的另一個準確率基準)上達到了 90% 的準確率 。搜尋功能也可能提高推理模型的幻覺率——至少在用戶願意將提示暴露給第三方搜尋提供者的情況下是如此。

如果擴大推理模型確實會繼續加劇幻覺,那麼尋找解決方案就變得更加緊迫。

OpenAI 發言人Niko Felix 表示:“解決我們所有模型中的幻覺問題是一個持續的研究領域,我們正在不斷努力提高它們的準確性和可靠性。”

去年,在改進傳統人工智慧模型的技術開始呈現收益遞減趨勢後,更廣泛的人工智慧產業已將重點轉向推理模型。推理可以提高模型在各種任務上的效能,而無需在訓練過程中進行大量的計算和資料。然而,推理似乎也可能導致更多的幻覺——這帶來了挑戰。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
科學家在實驗室種出整塊人造雞肉
NEXT
社交網路Bluesky可能很快就會添加藍色對鉤驗證系統

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 4 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
282930  
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 全面推動「凋零骷髏塔」標準化建設的網路大狂歡是怎麼開啟的? 2025-05-23
  • Windows記事本不再「簡單」 微軟為其新增AI寫作功能 2025-05-23
  • 基於Sora的微軟新工具Bing Video Creator挑戰Veo 各平台均可免費用 2025-05-23
  • 科學家發明結合紅外線和可見光的夜視鏡片 2025-05-23
  • Bluesky 將開始驗證「知名」用戶 2025-05-23
  • Anthropic CEO稱人工智慧模式產生的幻覺其實比人類少 2025-05-23
  • 這些韓國老年海女已擁有基因層面的“超能力” 2025-05-23
  • 防止顯示卡接口燒熔玩家給RTX 4090電源線裝上保險絲還有更狠的 2025-05-23
  • BMWSpeedtop概念車官圖發表售價超過400萬的雙門獵裝轎跑 2025-05-23
  • 馬雲上榜《時代》全球百大慈善人物榜單 2025-05-23

熱門文章與頁面︰

  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 您可以在Windows 11 24H2 中找回WordPad
  • 電影《尋秦記》宣布2025賀歲檔上映古天樂等原班人馬回歸
  • 戴森展示新款超薄吸塵器PencilVac 與吹風機一樣纖薄
  • 彩虹-YH1000無人物流機首飛成功一口氣能飛1500公里
  • 微軟員工再次擾亂Satya Nadella 的主題演講
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 上海兩大機場直通地鐵虹橋到浦東只要40分鐘全程26元
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.