一款AI檢測工具可輕易辨識ChatGPT所撰寫的論文
根據週一(11月6日)發表在科學頂刊《細胞》物理子刊《Cell Reports Physical Science》上的一項研究,科學家已研究出一種機器學習工具,可以輕鬆識別出使用聊天機器人ChatGPT撰寫的化學論文。
論文的合著者、美國堪薩斯大學的化學家Heather Desaire指出,「大多數文本分析領域都想要推出真正通用的檢測器,可以適用於任何東西」。但她表示她的團隊正透過製作一種專注於特定類型論文的檢測工具,旨在「追求準確性」。
Desaire稱,研究結果表明,開發人工智慧(AI)檢測器的努力可以透過客製化軟體來促進特定類型的論文寫作,「如果你能快速且輕鬆地構建一項專門的工具,那麼為不同的領域構建不同的工具就不是那麼困難了。”
從公佈的數據來看,這種專門的偵測器比市面上現有的兩種人工智慧偵測器的性能都要好,可以幫助學術出版商識別出那些由人工智慧文字產生器產生的論文。
準確率驚人
Desaire和她的同事在6月首次描述了他們研發的ChatGPT探測器,當時他們將其應用於《科學》雜誌上的Perspective文章。團隊使用人工智慧偵測器檢查寫作風格的20個特徵,包括句子長度的變化、某些單字和標點符號的頻率等,來確定文章是有人類科學家所做還是由ChatGPT所產生的。
當時的研究結果表明,「你可以使用一小部分特徵來獲得高水平的準確性」。
在最新的研究中,團隊將美國化學學會(ACS)出版的十本化學期刊的論文引言部分作為人工智慧探測器的訓練對象。
研究人員將100篇已發表的人類撰寫的引言作為比對材料,然後要求ChatGPT-3.5以ACS期刊的風格撰寫200篇引言。其中100篇是研究人員向ChatGPT提供了論文標題後產生的,而另外100篇是研究人員向ChatGPT提供了論文摘要後產生的。
研究結果顯示,當把人類撰寫的引言和和人工智慧從同一期刊上產生的介紹進行測試時,該人工智慧偵測器能夠100%識別出由ChatGPT-3.5編寫的前100篇引言(基於論文標題生成的);而對於後100篇ChatGPT-3.5產生的引言(基於論文摘要所產生的),檢測的準確率略低,為98%。
此外,工具也適用於ChatGPT-4所寫的文字。
相較之下,市場上的另兩款人工智慧偵測器中,德國的ZeroGPT識別人工智慧編寫的介紹的準確率僅為35-65%,這取決於使用的ChatGPT版本以及介紹是由論文標題還是摘要生成的。而OpenAI本身的文字分類器工具也表現不佳──它能夠辨識人工智慧編寫的介紹,準確率約10-55%。
柏林應用科技大學研究學術剽竊的電腦科學家Debora Weber-Wulff評論道,這篇論文的作者們所做的是一件「令人著迷的事情」。
她表示,許多現有的工具試圖透過搜尋人工智慧產生的文章的預測文字模式來確定作者的身份,而不是透過觀察寫作風格和文體的特徵。Weber-Wulff 稱,“我從來沒有想過在ChatGPT上使用文體計量學。”