智源AI研究院回應大模型論文學術爭議
“我們已經註意到對《A Roadmap for Big Model》一文的質疑,正在對相關情況進行核實,智源研究院鼓勵學術創新和學術交流,對學術不端零容忍,有關進展將盡快通報。” 4月13日,北京智源人工智能研究院回复谷歌大腦(Google Brain)的著名科學家Nicholas Carlini對一項中外合作大型學術論文涉嫌剽竊的指控。
此前4月8日,Nicholas Carlini公開撰文,指控一篇於今年3月26日刊登在論文預印網站Arxiv的論文《關於“大模型”的路線圖》(“A Roadmap for Big Model”)一文涉嫌嚴重抄襲。
該文是前不久國內外多家高校和企業共同完成的長達200頁的學術綜述論文,有多達100名作者,分別來自於清華大學、北京大學等國內高校,哥倫比亞大學、蒙特利爾大學等國外高校,字節跳動、華為、京東、騰訊等企業以及中科院和北京智源等機構。
Nicholas Carlini在文章《機器學習研究中的一個抄襲案例》(“A Case of Plagarism in Machine Learning Research”)中則詳細列舉了該論文存在大段抄襲其他論文的嫌疑,證據是大規模的文本重疊,疑似被剽竊的論文也包括他自己的論文“Deduplicating Training Data Makes Language Models Better”。
Nicholas Carlini在文章中解釋,他們是在閱讀這篇論文時發現很多語句都非常的熟悉,然後通過使用論文查重工具發現了更多的證據,進而準確定位《關於“大模型”的路線圖》論文中和已有論文中存在剽竊嫌疑的文本內容。
澎湃記者發現,這篇被質疑的論文目前已經被其發表網站Arxiv在頁面上備註了該文和Nicholas Carlini的論文有“文本重疊”(text overlap)。
此前3月31日,北京智源社區撰文以《如何煉大模型?200頁pdf100+位作者19家單位!北京智源清華唐杰等發布》介紹該篇論文:
“隨著以深度學習為代表的AI技術的快速發展,智能模型的訓練應用模式逐漸由’大煉模型’向’煉大模型’轉變。大模型研究在近年來發展迅速,模型的參數量以驚人的速度擴展。北京智源人工智能研究院最近發布的《A Roadmap for Big Model》由悟道大模型研究項目負責人,智源學術副院長,清華大學計算機系教授唐杰牽頭,從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索4個層面出發,對15個具體領域的16個相關主題進行全面介紹和探討。非常值得關注。”
《關於“大模型”的路線圖》中的研究主體“大模型”是近幾年人工智能的熱門關注領域。人工智能發展到今天,GPT和BERT等參數量巨大的模型被人們開發出來,他們在計算機視覺和自然語言處理等領域取得了前所未有的成就。同時,因為大模型參數量巨大,最近學術界開始將它們當作一類特別的人工智能模型進行研究。
在一篇去年發布的,由斯坦福教授李飛飛等領銜的約百名作者署名論文將此類模型稱為“基礎模型”(Foundation Model),這篇由清華主要參與的論文關注與此相同含義的“大模型”(Big Model)的未來研究路徑。在清華的論文中,作者們介紹到“之前論文提及的’基礎模型’在中文語境中也被稱為’大模型’”(“The mentioned foundation model is known as the BMs, and it is called Big Model in the Chinese context.” )。
這起“涉嫌抄襲”事件在國外社交媒體上引起熱議。滑鐵盧大學教授Gautam Kamath表示,對於一篇有如此多作者的文章,他很驚訝沒有一個作者註意到相似之處並且去改正它。