堪薩斯大學的研究人員稱其ChatGPT協助論文檢測技術的準確率達到99%
來自堪薩斯大學的科學家們週三發表了一篇論文,詳細介紹了他們所說的一種算法,該算法可以檢測出ChatGPT參與下的學術寫作,準確率超過99%。隨著人工智能聊天機器人的內容開始充斥世界,最大的擔憂之一是可靠地發現機器人和真正的人類之間的文字差異。
已經有一些人嘗試建立ChatGPT檢測器,有幾十家公司正在競爭建立人工智能檢測技術。但到目前為止,沒有一個方案能很好地發揮作用,即使是由開罰ChatGPT的公司OpenAI打造的方案。現有的工具效果很差,基本上沒有用處。
論文中描述的ChatGPT發現者只是為了在特定情況下工作而建立的,但其報告的成功似乎很有希望。在構建過程中,研究人員說他們已經發現了人工智能寫作的蛛絲馬跡。
這篇經過同行評議並發表在《細胞報告-物理科學》上的論文,描述了一種能嗅出人工智能撰寫的學術研究文章的技術。該研究選擇了一組由人類作者撰寫的64篇科學研究文章,涉及不同的學科–從生物學到物理學。他們將這些數據輸入ChatGPT,並利用它產生了一個128篇人工智能文章的數據集,其中總共有1276段價值不菲的聊天機器人產生的語句。科學家們使用這些假的段落來建立他們的ChatGPT檢測算法。然後他們把一個新的數據集放在一起,用30篇真正的文章和60篇ChatGPT寫的文章來測試他們的算法,總共有1210段。
研究人員稱,他們的算法100%地檢測到了由ChatGPT編寫的整篇文章。在段落層面上,其準確性較低,但仍然令人印象深刻:該算法發現了92%的人工智能生成段落。
研究人員希望其他人能夠利用他們的工作,根據他們自己的利基和目的定制檢測軟件。該論文的作者、堪薩斯大學的化學教授Heather Desaire在接受EurekAlert採訪時說:”我們努力創造一種可獲得的方法,以便在很少的指導下,甚至高中生也能為不同類型的寫作建立一個人工智能檢測器。有必要解決人工智能寫作的問題,人們不需要計算機科學學位就能在這個領域做出貢獻。”
該論文說,ChatGPT的工作有一些明顯的跡象。首先,人類作家寫的段落更長,使用的詞彙量更大,包括更多的標點符號,並傾向於用”然而”、”但是”和”雖然”等詞來限定他們的陳述。ChatGPT在引用數字和提及其他科學家等方面也不太具體。
對於希望懲罰作弊的高中老師來說,堪薩斯大學研究人員建立的模型並不能馬上拿來用。該算法是為學術寫作而建立的,特別是在科學雜誌上看到的那種學術寫作。這對導師和管理人員來說是個恥辱,他們在過去六個月裡對ChatGPT促成的抄襲行為感到恐慌。然而,理論上可以使用同樣的技術來建立一個檢測其他類型寫作的模型。
當你考慮到一個事實,即作者可以很容易地對一段聊天機器人的寫作進行一些小調整,使其更難被發現,整個方案的有效性就會崩潰。儘管如此,研究人員仍將這項工作描述為”概念證明”,並表示他們可以通過更大的數據集開發出更強大、也許更準確的工具。
儘管這些結果可能很有希望,但科技公司和人工智能推動者表示,像ChatGPT這樣的工具還處於起步階段。如果人工智能繼續以我們在過去幾年中看到的迅猛速度發展,像這樣的檢測方法是否會站得住腳,現在還無法說。大型語言模型越是接近於復制有血有肉的人類寫作的雜音,就越難識別出機器人語言的痕跡。
閱讀文獻:
https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00200-X