消滅「幻覺」:Google全新ASPIRE方法讓LLM為自己打分效果碾壓10x體積模型
Google和威斯康辛麥迪遜大學的研究人員推出了一個讓LLM為自己輸出打分的選擇性預測系統,透過軟提示微調和自評估學習,取得了比10倍規模大的模型還要好的成績,為開發下一代可靠的LLM提供了一個非常好的方向。
大模型的「幻覺」問題馬上要有解了?
威斯康辛麥迪遜大學和Google的研究人員最近開發了一個名為ASPIRE的系統,可以讓大模型對自己的輸出給予評分。
如果使用者看到模型的生成的結果評分不高,就能意識到這個回應可能是幻覺。
如果系統可以進一步篩選評分的結果進行輸出,例如如果評分過低,大模型就可能生成“我沒法回答這個問”,從而有望最大限度的改善幻覺問題。
ASPIRE能讓LLM輸出答案以及答案的置信度得分。
研究人員的實驗結果表明,ASPIRE在各種QA資料集(例如CoQA 基準)上顯著優於傳統的選擇性預測方法。
讓LLM不僅要回答問題,還要評估這些答案。
在選擇性預測的基準測試上,研究人員透過ASPIRE系統取得了超過10倍規模的模型的成績。
就像讓學生在課本後面驗證他們自己的答案,雖然聽起來有點不靠譜,但是細細一想,每個人在做出一道題目之後,確實會對答案的滿意程度會有一個評分。
這就是ASPIRE的本質,它涉及三個階段:
(1) 針對特定任務的調優,
(2) 答案採樣,
(3) 自我評估學習。
在研究人員看來,ASPIRE不只是另一個框架,它代表著一個全面提升LLM可靠性,降低幻覺的美好未來。
如果LLM可以成為決策過程中值得信賴的合作夥伴。
只要透過不斷優化選擇性預測的能力,人類距離充分發揮大模型的潛力就又更近了一步。
研究人員希望能憑藉ASPIRE,開啟下一代LLM的演化,進而創造出更可靠、更具有自我意識的人工智慧。
ASPIRE 的機制
針對特定任務的微調
答案採樣
自評學習
結果
當深入研究固定模型預測的選擇分數計算時,ASPIRE獲得了比所有資料集的基線方法更高的AUROC分數(隨機選擇的正確輸出序列比隨機選擇的不正確輸出序列具有更高選擇分數的機率) 。
例如,在CoQA基準上,與基線相比,ASPIRE將AUROC從51.3%提高到80.3%。
TriviaQA資料集評估中出現了一個有趣的模式。
雖然預先訓練的OPT-30B模型表現出更高的基線精確度,但當應用傳統的自我評估方法(Self-eval和P(True))時,其選擇性預測的性能並沒有顯著提高。
相較之下,小得多的OPT-2.7B模型在使用ASPIRE進行增強後,在這方面表現優於其他模型。
這種差異反映了一個重要的問題:利用傳統自我評估技術的較大LLM在選擇性預測方面可能不如較小的ASPIRE增強模型有效。
研究人員與ASPIRE的實驗之旅強調了LLM格局的關鍵轉變:語言模型的容量並不是其表現的全部和最終目的。
相反,可以透過策略調整來大幅提高模型的有效性,即使在較小的模型中也可以進行更精確、更自信的預測。
因此,ASPIRE證明了LLM的潛力,它可以明智地確定自己答案的確定性,並在選擇性預測任務中顯著地超越其他10倍體積的模型。