你用AI寫的論文已經被「盯」上了!
「太不像話了!學生用人工智慧產生的期末論文糊弄我。」近日,上海某高校教師在社群媒體上「吐槽」自己遇到的新難題——一些想偷懶的學生開始用人工智慧技術完成論文。以ChatGPT為代表的生成式人工智慧技術(AIGC)橫空出世,似乎為人們寫論文提供了新幫手。從提供選題到文稿潤飾、從統計分析到圖表製作…其功能之強大,幾乎涵蓋了學術論文寫作過程的方方面面。
面對ChatGPT等工具的潛在風險,爭議隨之而來。不少人質疑,人工智慧到底能不能用於輔助學術論文寫作。有人認為,它只是提高科研效率的工具。有人則對此持審慎態度,認為容易引發大規模的學術誠信問題。
人工智慧技術在論文寫作的應用程度如何?技術應用的邊界在哪裡?如何對這項技術進行有效治理?科技日報記者對此進行了深入採訪。
1
AI生成的文字“非常水”
有多少人嘗試過用人工智慧技術寫論文?去年《自然》雜誌對全球博士後的一項調查發現,約有三分之一的受訪者使用人工智慧聊天機器人來優化文字、產生或編輯程式碼、整理文獻。
當記者嘗試在社群媒體上搜尋「AI」「論文」「寫作」等關鍵字,五花八門的AI論文寫作指導教程映入眼簾。其中大部分宣稱能夠教會使用者在幾分鐘內通過幾個簡單的步驟,產生一篇幾萬字的「優質」論文。這些教學的瀏覽量最高已達數百萬。
AI真的能產生一篇完整的「優質」論文嗎?記者按照教學開始了嘗試:「請提出與民族誌紀錄片有關的論文選題。」幾乎不需要等待,幾個看起來很「可靠」的選題就出現在對話框裡。
某大語言模式生成的民族誌紀錄片論文選題。網頁截圖
「請就某一選題生成寫作大綱。」幾秒後,7個像模像樣的章節全部生成完畢。「請就提綱中某項內容,詳細描述2000字。」重複幾次操作後,一篇幾萬字的「論文」很快就完成了。但記者瀏覽後發現,生成的段落中,有大部分重複且言之無物的內容。
除了說「車遼」話,某985高校人工智慧專業碩士研究生溫睿也發現了這類論文的行文特點:「一般是先寫一句話,然後進行分條論述。當老師看到這樣套路化的內容就會猜測,這類文章很大程度上是人工智慧寫的。”
文章一開始那位教師的經歷印證了溫睿的發現。「這樣的論文看似條理清晰、層次豐富,但實際上每個層面的內容都很少,而且非常空洞。我馬上就懷疑是AI生成的。」該老師說。
不少期刊編輯、審稿人也發現了同樣的問題。
某人文社科期刊審稿人徐彬向記者透露,用AI寫論文的關鍵在於提示詞。如果提示詞選用的不恰當,就極有可能得到一篇套路化的文章。他目前已經收到五、六篇「一眼就能看出來」用AI寫的稿子。
「這些文章的共同特徵就是非常水。雖然它生成的語言連貫性不錯,但是缺乏深度,創新性也不強。」對此,徐彬略顯無奈, 「綜述類文章是使用AI的重災區,但目前期刊仍缺乏相關的評價標準和處理機制。”
2
偽造資料集更具隱蔽性
在清華大學人工智慧國際治理研究院副院長梁正看來,論文核心評估標準包括作者發揮的創意、對論文的貢獻程度。一篇大部分由AI產生且隱瞞使用情況的文章,既沒有作者智力的貢獻,也不符合科學研究誠信的要求,屬於學術造假。
AIGC造成的學術造假也發生在資料領域。記者在採訪過程中,多位業內專家提到了偽造資料集問題。相較於直接的文本生成,這種方式更具隱蔽性。
GPT-4的ADA功能是一種結合了電腦程式語言Python的模型,可以執行統計分析並建立資料視覺化。梁正向記者講述了一則真實的案例:國外某機構研究人員先是要求GPT-4 ADA創建一個關於圓錐角膜患者的數據集,後又要求它編造臨床數據,用以支持深板層角膜移植術比穿透性角膜移植術效果更好的結論。但真實的臨床數據證明,兩種手術效果並無明顯差異。
「針對某個問題,提出方法來解決,並透過實驗來證明方法的可行性——這是專業論文的常用模式。人工智慧不能做實驗,即使它給的實驗數據再理想,也都是虛假的。」溫睿認為,虛假的數據背離了科學研究的真正意義。
除了數據處理,更多人使用AIGC來解釋概念。溫睿發現AIGC生成的概念簡潔明了,查重率也非常低。但當記者詢問這些概念是否正確時,溫睿顯得有些遲疑:“我也沒有把握,通常默認它是對的。”
為了驗證AIGC給出答案的準確性,記者就一些新興概念提問,但它給出的答案往往和真正概念毫不沾邊。當記者讓AI產生5篇某領域的重點參考文獻,它又胡編亂造了5個不存在的作者和不存在的文獻。
以上作者和論文並不存在。網頁截圖
在人工智慧領域,描述AI「一本正經地胡說八道」的專業名詞是「AI幻覺」。哈爾濱工業大學(深圳)特聘校長助理、教授張民解釋,AI幻覺是指AI會生成貌似合理連貫,但與輸入問題意圖不一致、與現實或已知數據不符合或無法驗證的內容。這多是由於AI對知識的記憶不足、理解能力不夠、訓練方式固有的弊端及模型本身技術的限制所導致。
「如果不警惕AI幻覺,很有可能損害科學研究的真實性和客觀性。」梁正表示,AI生成的錯誤訊息一旦被廣泛傳播,不僅會造成「學術垃圾」氾濫,還將影響學術生態的良性發展。
3
一場你追我逃的“貓鼠遊戲”
一項新科技的出現,對於社會的發展往往是把雙面刃。雖然人工智慧技術存在種種隱患,但其在圖文創作、資料處理等方面的強大能力已被大多數人認可。「歸根結底,我們認為AI將增加人類的智慧,而非取代人類。其使用應在人類監督之下,並將道德因素考慮在內。」施普林格·自然集團發言人說。
推動AI向善發展,需要藉助行之有效的技術手段。值得注意的是,AI產生的論文並不能被查重工具偵測出來。因此,國內外都在探索研發專門針對AIGC的檢測工具。
從原理來看,AIGC檢測技術是在「用AI打敗AI」。同方知網數位出版技術股份有限公司副總經理柯春曉介紹:「人類的創作往往是隨機且富有靈感的,而接受過大量文本訓練的AI已經形成了生產文本的’固有’範式,傾向於使用’一致’的結構和規則,因此具有更高的可預測性。” AIGC檢測的核心是依託海量的文本和數據樣本,識別出人類和AIGC工具在平均句子長度、詞彙多樣性和文本長度等方面的不同點,從而揪出AI論文「槍手」。
一些期刊出版機構透過檢測工具發現了AIGC代寫論文的痕跡。「從去年7月底到現在,我們發現涉嫌AI寫作的論文數據每個月都在上升,大約有六七十篇的文章疑似使用AI的程度超過了50%。」中華醫學雜誌社有限責任公司新媒體部主任沈錫賓介紹。
沈錫賓向記者展示了檢測過程:一篇論文經過檢測系統後,會顯示疑似AI生成佔全文比重,相關疑似段落也會被標紅。但記者註意到,和傳統的查重報告單明確標註重複痕跡不同,AIGC檢測報告單只是指出某些文本AIGC的“置信度”,並不能回答為什麼是這個值。
「這使得報告單往往只起到參考和警示作用。」柯春曉說。
目前,人工智慧大模型正在以「週」為單位進行迭代升級。如何適應不斷升級的技術,是擺在AIGC檢測工具面前的一道必答題。
身為使用者的人類本身也在不斷「進化」。「類似人們逃避查重的方式,如果人們了解到AI檢測的方式,也可以重新組織相關內容,對AI生成的文本進行人工潤色。這樣很可能就檢測不出來了。」沈錫賓說。
作弊與反作弊的過程,實質上是一場「貓鼠遊戲」。只要技術不斷升級,兩者間的博弈就不會停止。目前,AIGC檢測技術仍處於萌芽期。如何對AI產生的虛假圖片、虛假數據進行辨識仍是困難。因此,人們引進智慧檢測技術的同時,也要建立人工審查機制。
「審稿人要當好『守門人’,發揮同儕審查的作用,仔細甄別判斷論文的數據是否和認知存在偏差。出版機構也可以要求作者提供原始數據,多管齊下,確保科研誠信。 」沈錫賓說。
4
科技向善要他律更要自律
在加強技術治理的同時,各方都在翹首以盼,期待達成某些共識以及相關政策盡快出台。「教育、科學研究、出版各方都很關注AIGC使用的邊界,期待對合理使用AIGC形成一個共識規範。」知網技術專家呼籲。
其實,早在去年初,中國科學技術資訊研究所(以下簡稱中信所)就牽頭愛思唯爾、施普林格·自然、約翰威立等國際知名出版集團和科研資訊分析機構,在廣泛調查並整理業內相關研究和探索工作的基礎上,完成了中英文版的《學術出版中AIGC使用邊界指南》(以下簡稱《指南》),並於去年9月20日在國內外同步發布。
去年12月21日,科技部發布的《負責任研究行為規範指引(2023)》(以下簡稱《指引》)更受到了業界的廣泛關注。
《指引》和《指南》就如何負責任地使用AIGC,解答了令科研工作者、期刊編輯、審稿人困惑的一些問題。
首先是披露問題。《指引》提出,使用生成式人工智慧產生的內容應明確標註並說明其生成過程,確保真實且準確和尊重他人智慧財產權。《指南》中更是提供了聲明的模板,供科學研究人員參考。
對於某些人想用AIGC投機取巧的行為,《指引》明確提出,不得使用AIGC直接生成申報材料;《指南》規定,AIGC不應該用來產生研究假設、直接撰寫整篇論文文本、解釋數據、得出研究結論。研究人員所使用的數據必須是研究人員進行實驗並收集所得,如使用AIGC提供的統計分析結果需進行驗證。
隨著AIGC的使用邊界不斷清晰,越來越多的出版機構達成共識,制定了使用規範。施普林格·自然集團發言人介紹說,他們目前已經明確了有關作者身份和圖像方面的規定。例如,人工智慧不能擔任作者,真正作者如使用大語言模型須加以透明描述,AI生成的圖像通常不能用於發表等。
「《科學》雜誌在去年1月發布的政策是禁止使用任何AIGC工具。而11月16日他們更新了投稿規則、放寬了限制,表示只要進行了適當披露,使用工具是可以接受的。」中信所博士鄭雯雯說。
「《指引》覆蓋較為全面,對AIGC的使用整體呈現出平衡包容、敏捷治理的態度,而非一味禁止。這也說明治理的目的並不是阻止科學研究工作者使用新一代人工智慧技術,而是讓科研工作者能夠負責任地去使用。」梁正提到,在政策制定的行為框架之下,也要關注學科差異問題。“使用AIGC可能因學科的不同而有所差異,其倫理問題也要根據學科特點細化。”
例如,在自然科學領域,AIGC的強大功能更體現在資料處理領域,如果失範使用,往往難以發現。而對於人文社科領域,直接使用AIGC產生內容的痕跡非常容易被發現,尤其是在高水準的研究當中,優劣之分更為明顯。
「因此,對於更重視文字表達、資料資料支援的學科,例如企業管理、理工科、醫學等,需要防範產生虛假的資料集或論證資料。」梁正說,「對AIGC使用的揭露程度、疑似度的數據指標等,都需要學術共同體進一步探索,來推動形成廣泛共識。”
此外,儘管國家推出了相應的規則,但從外部監督到產業自治還需要一個過程。AIGC的使用涉及包含研究人員、出版機構、相關產業組織、政府等各方面。如何釐清各方關係,各司其職是關鍵。「簡單說,就是出了問題,誰來查?有沒有能力查?」鄭雯雯強調。
記者了解到,中華醫學會雜誌社在今年1月9日公佈了其對於AIGC技術使用的相關規定。其中不僅涉及了作者要遵守的細則,還提出了查處方式——經編輯部研判的違反AIGC使用的情形,將直接退稿或撤稿;情節嚴重者,將列入作者學術失信名單。
「我們下一步的目標是把存在問題的文章作一個歸納總結,進一步摸清AIGC使用的規律,為科學治理積累經驗。」沈錫賓說。
「儘管新興技術有著潛在風險,但也有著無可比擬的優勢,不宜一味封堵,而是要做好引導、合理合規地使用新技術。」鄭雯雯表示,歸根結底,科學研究的主體是人。如果心中的那桿「秤」傾斜了,即使再完善的監管政策、再高階的偵測技術,也難以抵擋學術不端的侵襲。
梁正也強調,身為科學研究誠信的第一個責任人,科學研究人員一定要保持嚴謹的學術態度,關注研究領域的真問題,堅守學術研究的基本原則,如原創性和透明性;明確認識到ChatGPT等工具的潛在風險,避免使用不當而造成學術不端。
「科學研究誠信和倫理是科研的生命線,科研人員一定要存敬畏、有底線。一旦在這方面有瑕疵,職業生涯或將葬送。」梁正提醒。
來源:中國科技網