AI一本正經地胡說八道有種辦法可以識破它
近年來,生成式人工智慧在文字、圖像、音樂等領域大放異彩。然而,隨著生成式人工智慧變得越來越強大,人們越來越難以辨識AI產生的內容。近日,Google DeepMind 研究團隊在《自然》(Nature)上發表的封面文章提供了一個文字浮水印方案,可以提高AI 生成文字的偵測精確度。
AI 產生內容檢測的必要性
在文字、圖像和音樂中,AI 產生的文字是最難偵測的。因為現有的圖像和音樂生成技術尚未像文字生成技術一樣發達,AI 生成的圖像和音樂往往有某些非自然的視覺或聽覺特徵。 AI 產生的內容整體上效果較好,但具體到細節就顯得不夠自然。在影像和音樂中,也可以人工添加人類難以發現的水印,在後期檢測中透過水印篩選出AI生成的作品。
然而在文本中難以直接添加人類不可見的水印,這是因為文字與圖像和音樂不同,每一個文字都是完全可見的。同時,可用於訓練AI 的文字資料也遠多於圖像和音樂。在龐大的、基於人類寫作的語料庫的訓練之下,AI 已經非常擅長模擬人類的表達方式和語言習慣,甚至能夠調整文本的風格和語氣,這使得AI 生成的文本難以直接檢測。
儘管AI 產生的文本與人類創作的文本難以分辨,但AI 產生的內容可能帶有事實性的錯誤,並不能保證可靠性。無法辨別來源的內容可能會導致假訊息的傳播,也帶來了學術作弊、版權爭議等種種問題。
例如,在「杭州取消機動車依尾號限行」假新聞事件中,網友用AI 技術產生的「假新聞」行文嚴謹、語氣措辭得當,也基本上符合官方通報的格式,導致了錯誤訊息大規模傳播。美國科技新聞網站CNET 在三個月之內上線了70 多篇用AI 技術生成的新聞報道,卻被發現其中存在大量基礎性錯誤,包括計算錯誤、金融概念誤解等,不得不暫時叫停AI項目重新審核。
為了避免AI 技術的濫用,我們需要一種方法來辨別文本是否由AI 產生。
主流檢測方法:事前與事後檢測
檢測AI 產生的文本是一個分類問題,我們的主要目標是區分一個文本片段是由AI 產生的還是由人類創作的。通常一個文字偵測器對於一個給定的文字片段會給予一個評分,當這個評分超過閾值時,這個片段被認為是AI 產生的,反之則是人類創作的。
文字偵測架構(圖片來源:根據參考文獻 [1] 翻譯)
現有的主流檢測方法可分為兩大類:事前檢測和事後檢測。事前檢測可以進一步分為基於浮水印的檢測和基於檢索的檢測。事後檢測可以分為基於零樣本學習的檢測和基於訓練的檢測。
主流檢測方法分類(圖片來源:根據參考文獻 [1] 翻譯)
1
事前檢測
基於水印的檢測是指在AI 產生的文本中隱藏某些資訊以便後續檢測。但由於文字的離散性,在文字中添加浮水印比在圖像和音樂中添加浮水印困難得多。常用的方法是讓AI 生成的文本使用特定的語言風格或偏向性地使用某些特定的詞彙,但這樣可能會降低AI 生成文本的品質。
基於檢索的方法是指AI 服務的提供者將使用者透過AI 產生的文字保存在資料庫中。當需要偵測目標文字是否由AI 產生時,將目標文字與資料庫中的文字進行匹配,如果相似度較高,則很可能是AI 產生的。但這種方法需要保存用戶數據,可能帶來隱私外洩的問題。
2
事後檢測
基於零樣本學習的檢測是指不需要進行任何的訓練,僅根據AI 生成文本的特徵來檢測一段文本是否是AI 生成的。通常AI 產生的文本傾向於使用常見的詞彙,句子的長度和結構也更統一。而人類創作的文本則顯得更加隨心所欲,每一句的水平也參差不齊。與人類相比,AI 在記憶細節上能力較強而在邏輯推理上能力較弱。利用這些特點可以在一定程度上區分AI 生成的文本和人類創作的文本。
基於訓練的偵測是指使用人類創作的文字和AI 產生的文字建立一個資料集,用這個資料集訓練一個分類器來識別AI 產生的文字。但這需要收集足夠的資料來訓練,而隨著AI 能力的進步,這樣的區分也變得越來越困難。
可以看到,事後檢測比事前檢測困難許多。為了高精度地篩選出AI 生成的文本,在事前AI 生成文本時就添加水印是一個很好的解決方案。
Google DeepMind 的突破:
SynthID-Text 浮水印技術
Google DeepMind 研究團隊提出了一種新的浮水印產生方案,稱為SynthID-Text。它基於先前的水印生成組件,但使用了一種新的“錦標賽採樣”方法。 SynthID-Text 可以非扭曲(保留文字品質)或扭曲(以犧牲文字品質為代價提升浮水印的可偵測性)地添加浮水印。在扭曲和非扭曲設定下,與現有的最佳方法相比,SynthID-Text 都提升了浮水印的檢出率。
水印生成框架(圖片來源:根據參考文獻 [2] 翻譯)
上圖中展示了大語言模型生成文本的原理以及先前水印生成的框架。大語言模型的文本生成是基於上下文的,它會根據輸入的文本序列計算下一個詞彙的分佈,然後從這個分佈中抽樣出下一個詞彙。
一個生成式的水印方案通常包含三個部分:一個隨機數產生器、一個取樣演算法、一個評分函數。水印產生的過程是:首先使用隨機數產生器根據前面的文字以及水印鍵產生一個隨機數,然後取樣演算法利用這個隨機數從詞彙的分佈中抽樣出下一個詞彙。給出一段文字以及一個水印鍵,評分函數提供一個分數來量化當前文本中含有水印的可能性,當分數超過一個閾值時就認為這段文本中含有水印。
錦標賽採樣(圖片來源:根據參考文獻[2] 翻譯)
SynthID-Text 提出了一種新的「錦標賽採樣」方法,上圖是錦標賽採樣方法的一個例子。當模型輸入「…我最喜歡的熱帶水果是」時,模型計算出下一個詞彙的分佈,其中「芒果」的機率是0.5,「荔枝」的機率是0.3,「木瓜」的機率是0.15,「榴槤」的機率是0.05。在不加浮水印的正常生成中,模型會以這個機率直接取樣下一個詞彙。
在錦標賽採樣中,模型先根據隨機數種子產生三個隨機的水印函數,然後再從詞彙的分佈中採樣出八個詞彙,將這八個詞彙兩兩組合後進行競賽,在每一輪競賽中,由一個水印函數決定每一對組合中的勝出者。經過三輪競賽後,最終的勝出者就是模型的輸出結果:「芒果」。
在錦標賽採樣中,詞彙是根據水印函數的偏好採樣得出的。因此添加浮水印的文字會在浮水印函數上有更高的評分。在檢測時只需要評估每個詞彙在對應的水印函數下的評分,再將評分加和就可以得到這段文本包含浮水印的可能性。
水印的添加是透過改變取樣方法來實現的,它會改變模型輸出下一個詞彙的分佈,這看起來不可避免地會影響生成文本的品質。然而,由於採樣方法中使用了隨機數種子,儘管在某一隨機數種子下詞彙的分佈會被改變,但在對所有隨機數種子進行平均後可以得到和原始分佈相同的結果。 SynthID-Text 可以在適當的配置下避免影響詞彙的分佈從而保證文本的質量,也可以以損失一部分質量為代價提高水印的檢出機率。
SynthID-Text 方法在Google DeepMind 推出的Gemini 人工智慧模型上經過了兩千萬次使用者測試。測試結果顯示SynthID-Text 在添加浮水印的同時並不會降低文字的品質。同時,SynthID-Text 不會產生太多的時間和運算開銷,可以大規模地應用於生產實務。
結語
事後檢測文字是否由AI 產生是非常困難的。隨著AI 能力的增強,事後檢測會變得越來越困難,檢測和反檢測將會是無止境的技術競賽。水印方法提供了一個可能的解決方案,但這需要大語言模型的提供者在生成時就預先加入水印。如果使用者使用的模型沒有主動加入浮水印,就難以在事後進行檢測。此外,使用者還可以使用開源模型,或對新增了浮水印的文字進行二次編輯來逃脫偵測。這些問題都有待進一步解決。
未來,隨著生成式人工智慧的普及,如何偵測AI 產生的內容會變得越來越重要。 SynthID-Text 證明了水印技術在文字生成中大規模應用的可能性,但水印技術面臨的困難也說明檢測不只是一個技術問題。解決這個問題也需要各方共同努力,形成相關的行業標準以及法律法規,從而推動AI走在為人類服務的正軌之上。
參考文獻
[1]Ghosal SS,Chakraborty S,Geiping J,et al.人工智慧產生文字偵測的可能性與不可能性:一項調查[J]. arXiv 預印本arXiv:2310.15264, 2023.[2]Dathathri,S.,See,A.,Ghaisas,S.,Huang,PS,McAdam,R.,Welbl,J.,… & Kohli,P. ( 2024 )。用於識別大型語言模型輸出的可擴展浮水印。自然,634(8035),818-823。