微軟宣稱其新工具可糾正人工智慧幻覺但專家仍對此表示懷疑
人工智慧經常胡言亂語,微軟現在說它有辦法解決這個問題,但我們有理由對此持懷疑態度。微軟今天發布了一項名為”更正”(Correction)的服務,它可以自動修改人工智慧產生的與事實不符的文字。 Correction 首先會標記出可能存在錯誤的文本–例如,公司季度財報電話會議的摘要可能存在錯誤的引文–然後通過將文本與事實來源(如文字記錄)進行比較來進行事實核查。
作為微軟Azure AI 內容安全API 的一部分,Correction 可與任何文字產生AI 模型一起使用,包括Meta 的Llama和OpenAI 的GPT-4o。
“校正由一個利用小型語言模型和大型語言模型的新流程提供支持,以便使輸出與基礎文件保持一致,”微軟發言人表示。 “我們希望這項新功能能為醫學等領域的生成式人工智慧建構者和使用者提供支持,在這些領域,應用開發者認為回應的準確性非常重要。”
今年夏天,Google在其人工智慧開發平台Vertex AI 中推出了一項類似功能,讓客戶可以透過使用第三方提供者的資料、自己的資料集或Google搜尋來”磨合”模型。
但專家提醒,這些接地方法並不能從根本解決幻覺問題。華盛頓大學研究新興科技倫理影響的博士候選人奧斯-凱耶斯(Os Keyes)說:「試圖從生成式人工智慧中消除幻覺,就像試圖從水中消除氫氣一樣不切實際,因為幻覺本身就是技術運作的一個重要組成部分。
文本生成模型會產生幻覺,因為它們實際上什麼都不”知道”。它們是一種統計系統,能辨識一系列單字中的模式,並根據它們所訓練的無數實例預測下一個單字。
由此可見,模型的回答並不是答案,而只是預測如果問題出現在訓練集中會如何回答。因此,模型往往會對真相玩弄於股掌之間。一項研究發現,OpenAI 的ChatGPT有一半的時間會弄錯醫療問題。
微軟的解決方案是一對交叉引用、類似文案編輯器的元模型,旨在突出和改寫幻覺。
分類器模型會尋找人工智慧產生的文本中可能存在的錯誤、捏造或不相關的片段(幻覺)。如果偵測到幻覺,分類器就會引入第二個模型,即語言模型,試圖根據指定的”基礎檔案”修正幻覺。
“透過幫助應用程式開發人員減少用戶不滿和潛在的聲譽風險,修正可以大大提高人工智慧生成內容的可靠性和可信度,」微軟發言人說。 “需要注意的是,接地性檢測並不能解決’準確性’問題,但有助於使人工智慧的生成輸出與接地文件保持一致。”
凱耶斯對此表示懷疑。 “這可能會減少一些問題,但也會產生新的問題。畢竟,Correction的幻覺檢測庫估計也能產生幻覺。”
在被問及有關Correction 模型的背景介紹時,發言人指出,微軟研究團隊最近發表了一篇論文,描述了這些模型的預生產架構。但論文忽略了一些關鍵細節,例如使用了哪些資料集來訓練模型。
瑪麗皇后大學專門研究人工智慧的研究員邁克-庫克(Mike Cook)認為,即使”Correction”能像宣傳的那樣發揮作用,它也有可能加劇人工智慧的信任和可解釋性問題。這項服務可能會捕捉到一些錯誤,但也可能讓使用者陷入虛假的安全感–以為模型比實際情況更真實。
他說:「微軟與OpenAI 和Google一樣,都造成了這樣一個問題,即在模型經常出錯的場景中依賴模型。微軟現在所做的是在更高層次上重蹈覆轍。比方說,這讓我們從90 % 的安全性提高到了99% 的安全性–問題其實並不在那9%。
庫克補充說,微軟捆綁”修正”功能還有商業考量,該功能本身是免費的,但每月最多只能免費提供5000 條”文本記錄”。之後,每1000 筆文字記錄需支付38 美分。
微軟無疑面臨著向客戶和股東證明其人工智慧值得投資的壓力。僅在第二季度,這家科技巨頭就在資本支出和設備方面投入了近190 億美元,其中大部分與人工智慧有關。然而,該公司尚未從人工智慧中獲得可觀的收入。本週,一位華爾街分析師下調了該公司的股票評級,理由是對其長期人工智慧策略存有疑慮。
根據《The Information》的一篇文章稱,由於效能和成本問題,許多早期採用者已經暫停部署微軟的旗艦生成式人工智慧平台–Microsoft 365 Copilot。據報道,對於一個使用Copilot 進行Microsoft Teams 會議的客戶來說,人工智慧發明了與會者,並暗示通話的主題實際上從未討論過。
畢馬威會計師事務所(KPMG)的一項民意調查顯示,在試用人工智慧工具時,準確性和可能出現的幻覺是企業目前最擔心的問題。
庫克說:”如果這是一個正常的產品生命週期,那么生成式人工智慧仍將處於學術研發階段,並在不斷改進和了解其優缺點。相反,我們已經把它部署到了十幾個行業。微軟和其他公司已經把所有人都裝上了他們的發動機,並決定在前往目的地的途中建造起落架和降落傘。