OpenAI 的新推理AI 模型會產生更多幻覺
OpenAI近期推出的o3 和o4-mini AI 模式在許多方面都達到了領先水準。然而,這些新模型仍然會產生幻覺,或者說,會虛構事物——事實上,它們比OpenAI 的幾個老模型更容易產生幻覺。

幻覺已被證明是人工智慧領域最難解決的問題之一,甚至會影響到當今表現最佳的系統。從歷史上看,每個新模型在幻覺方面都會略有改進,幻覺程度比前代降低。但o3 和o4-mini 似乎並非如此。
根據OpenAI 的內部測試,所謂的推理模型o3 和o4-mini 比該公司先前的推理模型o1、o1-mini 和o3-mini 以及OpenAI 傳統的「非推理」模型(如GPT-4o)產生幻覺的頻率更高。
也許更令人擔憂的是,ChatGPT 製造商並不真正知道為什麼會發生這種情況。
OpenAI 在其針對o3 和o4-mini 的技術報告中寫道,「需要更多研究」來理解為什麼隨著推理模型的擴展,幻覺會變得越來越嚴重。 O3 和o4-mini 在某些領域表現較佳,包括與編碼和數學相關的任務。但由於它們“總體上提出了更多主張”,因此報告指出,它們經常做出“更準確的主張以及更多不準確/幻覺的主張”。
OpenAI 發現,o3 在PersonQA(該公司用於衡量模型對人類認知準確度的內部基準)上回答33% 的問題時產生了幻覺。這大約是OpenAI 之前的推理模型o1 和o3-mini 的幻覺率的兩倍,後兩者的得分分別為16% 和14.8%。 o4-mini 在PersonQA 上的表現較差——48% 的時間都出現了幻覺。
非營利人工智慧研究實驗室Transluce進行的第三方測試也發現,o3傾向於在得出答案的過程中編造行動。在一個例子中,Transluce觀察到o3聲稱它在2021款MacBook Pro上「在ChatGPT之外」運行了程式碼,然後將數字複製到答案中。雖然o3可以使用一些工具,但它無法做到這一點。
Transluce 研究員、前OpenAI 員工Neil Chowdhury 表示:“我們的假設是,用於o 系列模型的強化學習可能會放大那些通常可以通過標準後訓練流程緩解(但不能完全消除)的問題。”
Transluce 聯合創始人Sarah Schwettmann 補充說,o3 的幻覺率可能會使其實用性降低。
史丹佛大學兼職教授、技能提升新創公司Workera 執行長Kian Katanforoosh 告訴TechCrunch,他的團隊已經在程式設計工作流程中測試o3,並且發現它比競爭對手更勝一籌。然而,Katanforoosh 表示,o3 往往會產生網站連結失效的幻覺。該模型會提供一個點擊後無法正常工作的連結。
幻覺或許能幫助模型產生有趣的想法,並在「思考」中發揮創造力,但也會讓一些模型在準確性至上的市場中難以被企業接受。例如,律師事務所可能不會喜歡在客戶合約中插入大量事實錯誤的模型。
提升模型準確率的一個有效方法是賦予模型網路搜尋功能。 OpenAI 的GPT-4o 具備網路搜尋功能,在SimpleQA(OpenAI 的另一個準確率基準)上達到了 90% 的準確率 。搜尋功能也可能提高推理模型的幻覺率——至少在用戶願意將提示暴露給第三方搜尋提供者的情況下是如此。
如果擴大推理模型確實會繼續加劇幻覺,那麼尋找解決方案就變得更加緊迫。
OpenAI 發言人Niko Felix 表示:“解決我們所有模型中的幻覺問題是一個持續的研究領域,我們正在不斷努力提高它們的準確性和可靠性。”
去年,在改進傳統人工智慧模型的技術開始呈現收益遞減趨勢後,更廣泛的人工智慧產業已將重點轉向推理模型。推理可以提高模型在各種任務上的效能,而無需在訓練過程中進行大量的計算和資料。然而,推理似乎也可能導致更多的幻覺——這帶來了挑戰。