研究發現向聊天機器人詢問簡短的答案可能會增加幻覺
事實證明,告訴人工智慧聊天機器人要簡潔回應可能會讓它產生比平常更多的幻覺。這是總部位於巴黎的人工智慧測試公司Giskard 的一項新研究得出的結論。 Giskard 致力於為人工智慧模型開發一套整體基準。
該公司的研究人員在一篇詳細介紹其研究成果的部落格文章中表示,提示用戶對問題(尤其是關於模糊主題的問題)給出較短的答案可能會對人工智慧模型的真實性產生負面影響。
研究人員寫道:“我們的數據顯示,系統指令的簡單更改會極大地影響模型產生幻覺的傾向。這一發現對部署具有重要意義,因為許多應用程式優先考慮簡潔的輸出,以減少[數據]使用、改善延遲並最大限度地降低成本。”
幻覺是人工智慧中一個棘手的問題。即使是最強大的模型有時也會產生幻覺,這是其機率 性質的一個特徵。事實上,像OpenAI 的o3 這樣的新型推理模型比之前的模型更容易產生幻覺,這使得它們的輸出結果難以令人信賴。
Giskard 在其研究中指出,某些提示可能會加劇幻覺,例如要求簡短回答的模糊且誤導性的問題(例如「簡要告訴我日本為何贏得二戰」)。包括OpenAI 的GPT-4o(ChatGPT 的預設模型)、Mistral Large 和Anthropic 的Claude 3.7 Sonnet 在內的領先模型,在被要求簡短回答時,其事實準確性都會下降。

為什麼?Giskard 推測,當被告知不要詳細回答時,模型根本就沒有「空間」來承認錯誤的前提並指出錯誤。換句話說,強而有力的反駁需要更長的解釋。
研究人員寫道:“當被迫保持簡短時,模型總是會選擇簡潔而不是準確。對開發人員來說,或許最重要的是,像’簡潔’這樣看似無害的系統提示,可能會破壞模型揭穿錯誤信息的能力。”
TechCrunch 會議展覽:人工智慧預訂TC Sessions: AI 的席位,向1,200 多位決策者展示您的成果——無需巨額投入。席位有效期限至5 月9 日,售完為止。
加州柏克萊 | 6月5日
立即預訂
吉斯卡德的研究也揭示了其他一些令人好奇的現象,例如,當使用者自信地提出有爭議的觀點時,模型不太可能揭穿這些觀點的真相;而且,使用者聲稱自己喜歡的模型並不總是最真實的。事實上,OpenAI最近一直在努力尋找一種平衡,既能驗證模型的有效性,又不會顯得過於阿諛奉承。
研究人員寫道:“用戶體驗的優化有時會以犧牲事實準確性為代價。這在準確性和符合用戶期望之間造成了矛盾,尤其是當這些期望包含錯誤的前提時。”