DeepMind為人工智慧聊天機器人開發了”事實核查器”以治癒幻覺
人工智慧聊天機器人最受人詬病的行為之一就是所謂的幻覺,即人工智慧在令人信服地回答問題的同時,卻向你提供了與事實不符的資訊。簡單來說,就是人工智慧為了滿足使用者的需求而胡編亂造。
在使用生成式人工智慧創建圖片或影片的工具中,這就不是一個問題了。最後,最近才從OpenAI 離職的知名專家安德烈-卡爾帕西(Andrej Karpathy)竟然說,產生幻覺的現像是生成式人工智慧的底層技術–大型語言模型(LLM)的最大特徵。
但是,在以文字為重點、基於LLM 的聊天機器人中,使用者希望所提供的資訊與事實相符,因此幻覺是絕對不允許的。
防止人工智慧產生幻覺是一項技術挑戰,而且並非易事。不過,根據Marktechpost報道,Google DeepMind 和史丹佛大學似乎找到了某種變通辦法。
研究人員提出了一個基於LLM 的系統–“搜尋增強事實性評估器”(Search-Augmented Factuality Evaluator,簡稱SAFE),它可以對人工智慧聊天機器人產生的長格式回復進行事實檢查。他們的研究成果連同所有實驗代碼和數據集已作為預印本發表在arXiv 上。
系統透過四個步驟對答案進行分析、處理和評估,以驗證其準確性和真實性。首先,SAFE 將答案分割成單一事實,對其進行修改,並與Google搜尋結果進行比較。系統也會檢查各個事實與原始問題的相關性。
為了評估SAFE 的性能,研究人員創建了一個包含約16,000 個事實的資料集LongFact。然後,他們在四個不同系列(Claude、Gemini、GPT、PaLM-2)的13 個LLM 中測試了這個系統。在72% 的情況下,SAFE 提供了與人類註釋者相同的結果。在有分歧的情況下,SAFE 的正確率為76%。
此外,研究人員還聲稱,使用SAFE 的成本比人工註釋員或事實檢查員低20 倍,因此提供了一個經濟可行的解決方案,而且可以大規模應用。