大醜聞?一篇數十位國內AI大牛參與的論文被指嚴重抄襲
來自清華、北大、上海交大;騰訊、華為、京東、字節跳動,和炙手可熱的AI研發機構北京智源人工智能研究院等十多家知名機構的數十名國內AI大牛參與署名的論文,被Google Brain的一名研究員指出嚴重抄襲。
被指控的論文名為《A Roadmap for Big Model》(下稱《大模型》),根據論文發佈時,智源社區發布的文章:論文“由悟道大模型研究項目負責人,智源學術副院長,清華大學計算機系教授唐杰牽頭,從大模型基礎資源、大模型構建、大模型關鍵技術與大模型應用探索4個層面出發,對15個具體領域的16個相關主題進行全面介紹和探討。”
名叫Nicholas Carlini的研究員近日在其博客中直接羅列了大量該論文與他更早發布的“Deduplicating Training Data Makes Language Models Better”論文一摸一樣的段落。
而且,他還表示,被抄襲的可能至少還有其他十餘篇論文。
圖源:Nicholas Carlini博客
查閱預印本服務器arXiv可以發現,Google大腦研究員的論文上傳時間為去年七月份,而《大模型》的上傳時間在今年三月。兩篇文章所討論的“大模型”,為目前世界AI研究領域最熱門的話題之一。
這篇篇幅巨大的論文,作者署名甚至多達百人。該論文長達數十頁,並足足用了第一頁的篇幅羅列參與的作者。
其中不乏國內AI業界和學界的知名大佬,供職機構更是把中國知名高校和互聯網巨頭幾乎一網打盡。
在論文作者介紹部分寫到,“唐杰設計了這個大模型路線圖”。根據清華官方信息,唐杰2006年在清華大學計算機系獲得博士學位。研究興趣包括社會網絡分析、數據挖掘、機器學習和知識圖譜。2022年1月,唐杰剛因對信息和社交網絡挖掘的貢獻而當選國際計算機學會會士。出現在作者欄的還包括諸多與唐杰一樣在中國AI業內響噹噹的名字。
Nicholas Carlini在其博客中表示:“很可能只有少數作者參與了這種抄襲,一小部分作者的不當行為不應該被用來指責大多數行為良好的作者。”
在Nicholas Carlini的曝光博客發酵後,arXiv已在涉及抄襲的“A Roadmap for Big Model”論文頁面下添加了文字重合的警示。
圖源:預印本服務器arXiv
就在今天中午,負責“A Roadmap for Big Model”論文牽頭的北京智源人工智能研究院的官方賬號已對該情況做出回應,其表示:“我們已經註意到對《A Roadmap for Big Model》一文的質疑,正在對相關情況進行核實,智源研究院鼓勵學術創新和學術交流,對學術不端零容忍,有關進展將盡快通報。”
圖源:知乎