《自然》:ChatGPT正在改變同儕審查我們該如何負責任地使用它?
自從人工智慧(AI)聊天機器人ChatGPT 在2022 年底發布以來,電腦科學家注意到了一個令人擔憂的趨勢:聊天機器人越來越多地被用於同行評審研究論文,而這些論文最終都會被收錄到重要會議的論文集中。
這有幾個明顯的跡象。 人工智慧工具撰寫的評論因其正式的語氣和冗長的文字而引人注目–這些特徵通常與大型語言模型(LLM)的寫作風格有關。 例如,”值得稱讚”和”一絲不苟”等詞現在在同行評論中的出現率是2022 年之前的十倍。 人工智慧生成的評論也往往流於膚淺和泛泛而談,經常不提及所提交論文的具體章節,也缺乏參考文獻。
這是我和加州史丹佛大學的同事在研究2023 年和2024 年發表在會議論文集上的約50,000 篇電腦科學文章的同儕評論時發現的。 根據寫作風格和某些詞彙出現的頻率,我們估計評論中7%-17%的句子是由法學碩士撰寫的(W. Liang et al.Proc. Conf. Mach. Learn.235, 29575-29620; 2024)。
缺乏時間可能是使用法律碩士撰寫同儕審查的原因之一。 我們發現,在接近截止日期提交的評論中,由法律碩士撰寫的文本比例更高。 這種趨勢只會加劇。 目前,編輯們已經在努力爭取及時審稿,而審稿人則被各種要求壓得喘不過氣來。
幸運的是,人工智慧系統可以幫助解決這些問題。 為此,LLM 的使用必須僅限於特定任務–例如糾正語言和語法、回答簡單的稿件相關問題以及識別相關資訊。 然而,如果不負責任地使用,LLM 有可能破壞科學過程的完整性。 因此,當務之急是,科學界應就如何在學術同儕審查過程中負責任地使用這些模型來制定規範。
首先,必須認識到,目前的法律碩士無法取代人類專家審查者。 儘管LLM 具備一定的能力,但它們無法進行深入的科學推理。 他們有時也會產生無意義的回應,即所謂的幻覺。 獲得法學碩士撰寫的手稿評審意見的研究人員普遍抱怨,反饋意見缺乏技術深度,尤其是在方法論批評方面(W. Liang et al.NEJM AI1, AIoa2400196; 2024)。 法學碩士也很容易忽略研究論文中的錯誤。
鑑於這些注意事項,在部署LLM 時需要深思熟慮的設計和護欄。 對於審查者來說,人工智慧聊天機器人助理可以在同行評審提交之前提供回饋,告訴作者如何使模糊的建議更具可操作性。 它還可以突出顯示論文中可能被審查者遺漏的部分,這些部分已經解決了審查中提出的問題。
為了幫助編輯,LLM 可以檢索和總結相關論文,幫助他們了解工作的背景,並核實是否遵守了投稿核對錶(例如,確保正確報告統計數據)。 這些都是風險相對較低的LLM 應用程序,如果實施得當,可以節省審查者和編輯的時間。
然而,即使在執行低風險的資訊檢索和總結任務時,LLM 也可能會犯錯。 因此,應將LLM 的輸出結果視為一個起點,而不是最終答案。 使用者仍應交叉檢查LLM 的工作。
期刊和會議可能傾向於使用人工智慧演算法來檢測同行評審和論文中使用LLM 的情況,但其功效有限。 雖然這種檢測器可以突出顯示人工智慧生成文本的明顯實例,但也容易產生誤報–例如,將母語不是英語的科學家撰寫的文本標記為人工智慧生成的文本。 使用者也可以透過有策略地提示LLM 來避免檢測。 偵測器通常很難區分LLM的合理使用(例如潤飾原始文字)和不恰當使用(例如使用聊天機器人撰寫整篇報告)。
歸根結底,防止人工智慧主宰同儕審查的最佳方法可能是在評審過程中促進更多的人際互動。 OpenReview 等平台鼓勵審查者和作者進行匿名互動,透過多輪討論來解決問題。 一些主要的電腦科學會議和期刊現在都在使用OpenReview。
在學術寫作和同行評審中使用LLM 的浪潮不可阻擋。 為引導此轉變,期刊和會議場所應制定明確的指導方針,並建立相關制度加以執行。 至少,期刊應要求審查者透明地揭露他們在審查過程中是否以及如何使用LLM。 我們還需要適應人工智慧時代的創新互動同行評審平台,它可以自動將LLM的使用限制在有限的任務範圍內。 同時,我們也需要更多關於人工智慧如何負責任地協助完成某些同儕審查任務的研究。 建立社群規範和資源將有助於確保LLM既有利於審查者、編輯和作者,又不損害科學過程的完整性。
作者:James Zou