AI冒充人刷假新聞、灌評論怎麼辦?讓人工智能來鑑別
人工智能現在的寫作能力雖然還不至於寫出世界名著,但足以掩藏住機器的痕跡,混淆普通人的視線。最重要的是,AI可以批量生產文本,炮製假新聞、快速刷評論。該如何揪出冒充人類的AI呢?哈佛大學和麻省理工學院- IBM沃森人工智能實驗室(MIT-IBM Watson AI Lab)的研究人員想到了用AI識別AI。
他們開發了一種叫做“巨型語言模型測試器”(GLTR)的新工具,用於識別人工智能生成的文本。其辨別原理基於:人工智能是利用文本中的統計模式來自動生成文本的,而不考慮單詞和句子的實際含義。也就是說,如果一篇文章中的用詞都是可預測的,該文章就極可能是由人工智能寫的,而GLTR可以標註出文章用詞是否可預測。
開發最厚的盾,就要用最強的矛來測試。前一陣子,埃隆·馬斯克參與創立的AI研究機構OpenAI推出了一種算法,可以自動生成真實度極高的段落。只要在該算法的“學習模式”中輸入海量數據,該算法就可以統計詞頻,組合高頻詞,生成新的段落。而哈佛大學的團隊正是用Open AI公開發布的代碼為基礎,發明了GLTR。
GLTR可以根據詞頻,標明最可能出現的單詞搭配。最易預測的單詞是綠色的,較難預測的是黃色和紅色的,最難預測的是紫色的。當對Open AI編寫的算法所生成的文字進行測試後,發現大部分單詞都可預測;而人類寫出的新聞和科學摘要文字搭配更多樣。
那麼,什麼樣的用詞才是AI無法模仿的“人來之筆”呢?澎湃新聞記者將《哈姆雷特》中膾炙人口的段落放進該工具中檢索。
《哈姆雷特》選段,右為中文譯文
可以看到,莎翁的手筆確實不是AI能輕易揣摩的,短短的片段中就出現了20多處標紫。第一處標紫的“暴虐”雖非多么生僻的詞彙,但用來修飾“命運”卻並不常見。在AI眼中,這種搭配猶能體現出“人性之光”。
GLTR的研究人員讓哈佛的學生分別在不使用GLTR、和使用GLTR的時候,判斷文本是否是人工智能生成的。實驗結果表明,在不使用GLTR時,學生們只能識別出一半的虛假文本;而看到GLTR所做的標註後,他們可以識別出72%的虛假文本。Sebastian Gehrmanns是一位參與GLTR發明的博士生,他表明:“我們的目標是建立一個人類和人工智能協作的體系。”
《麻省理工科技評論》對此評價道,現在自動生成的假消息越來越多,這種AI工具或許能有效打擊機器製造的假新聞、假視頻和灌水評論。