新研究發現人工智慧搜尋工具的平均準確率僅60%
人工智慧模型可能缺乏準確性,這是不爭的事實。 對於開發人員來說,產生幻覺和重複錯誤訊息一直是一個棘手的問題。 由於用例千差萬別,因此很難確定與人工智慧準確性相關的可量化百分比。 一個研究團隊聲稱,他們現在已經掌握了這些數字。
Tow 數位新聞中心最近研究了八個AI搜尋引擎,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和Copilot。 他們測試了每種工具的準確性,並記錄了工具拒絕回答的頻率。
研究人員從20 家新聞出版社(每家10 篇)隨機選出了200 篇新聞報導。 他們確保每篇報導在使用文章摘錄時都能在Google搜尋中返回前三個結果。 然後,他們在每個人工智慧搜尋工具中執行相同的查詢,並根據搜尋是否正確引用了A)文章、B)新聞機構和C)URL 來評估準確性。
然後,研究人員根據從”完全正確”到”完全不正確”的準確度給每個搜尋貼上標籤。 從下圖可以看出,除了兩個版本的Perplexity 外,其他人工智慧的表現都不理想。 整體而言,人工智慧搜尋引擎有60% 的時間是不準確的。 此外,人工智慧對這些錯誤結果的”信心”也強化了這些錯誤結果。

這項研究之所以引人入勝,是因為它以量化的方式證實了我們幾年前就已經知道的事實–LLM是”史上最狡猾的騙子”。 他們以完全權威的口吻報告說,他們所說的都是真的,即使事實並非如此,有時甚至會爭辯或在面對質疑時編造其他虛假的斷言。
在2023 年的一篇軼事文章中,Ted Gioia(誠實的經紀人)指出了數十條ChatGPT 的回复,顯示機器人在回復大量詢問時自信地”撒謊”。 雖然有些例子是對抗性詢問,但許多只是一般性問題。
即使承認自己錯了,ChatGPT 也會在承認錯誤之後提供更多的假資訊。 LLM 似乎被編程為不惜一切代價回答用戶的每一個輸入。 研究人員的數據證實了這個假設,並指出ChatGPT Search 是唯一能回答全部200 則文章查詢的人工智慧工具。 不過,它的完全準確率僅28%,完全不準確的時間佔57%。

ChatGPT 還不是最差的。 X 的Grok AI 的兩個版本都表現不佳,但Grok-3 Search 的準確率高達94%。 微軟的Copilot 也沒好到哪裡去,因為它在200 次查詢中拒絕回答了104 次。 在剩下的96 個查詢中,只有16 個”完全正確”,14 個”部分正確”,66 個”完全錯誤”,因此它的準確率大約為70%。
可以說,這一切最瘋狂的地方在於,製造這些工具的公司對這種缺乏準確性的情況並不透明,同時向公眾收取每月20 到200 美元的費用。 此外,Perplexity Pro(20 美元/月)和Grok-3 Search(40 美元/月)比其免費版本(Perplexity 和Grok-2 Search)回答的查詢正確率略高,但錯誤率也明顯更高(上圖)。
不過,並非所有人都同意這種說法。 TechRadar 的蘭斯烏拉諾夫(Lance Ulanoff)表示,在嘗試了ChatGPT Search 之後,他可能再也不會使用Google 了。 他描述說,該工具快速、清晰、準確,介面簡潔、無廣告。