GPT-4考過MIT造假三位教授聯名“甩鍋” 豬隊友作弊搶發論文
GPT-4考過MIT風波再爆大瓜。剛剛,MIT共同作者親自澄清問題,竟因“豬隊友”搶發,使用未經允許的數據集釀成大禍。論文作者“官方打假”來了!前段時間,GPT-4通過MIT數學本科考試,甚至拿了接近滿分成績引眾多網友圍觀。然而,這篇論文剛發布,就被同校學生爆出“數據集”有問題,結果並不准確。
沒想到,爆料一出,AI界大佬LeCun、馬庫斯等紛紛出來發聲。
今天,來自MIT的論文作者正式給出了解釋。
讓人大跌眼鏡的是,作者之一的Iddo Drori,竟然是在沒有得到其他人允許的情況下,擅自搶發了論文。
甚至有共同作者表示,自己是在周末外出旅行後,才得知論文已經發了。
而且,Iddo據稱不僅“隱瞞”了自己實際採用的方法,而且在發表前就已經被告知,論文中還有問題沒有修改……
聲明全文
在6月15日,Iddo Drori在arXiv上發布了一份與麻省理工學院(MIT)幾十門課程考試和作業數據相關的論文。
然而他這樣做並沒有得到許多共同作者的同意,儘管被告知在發表之前應該糾正一些問題。而且我們當中的一些人在周末外出旅行後,在6月18日星期天才得知論文已發。
在解決這個問題的過程中,我們發現,與Iddo Drori向我們和收集數據的學生傳達的相反,Iddo沒有得到所有導師的許可來收集構成論文主題的作業和考試題的數據集。
當論文在社交媒體上出現,並且Iddo未經任何人許可在網上發布數據樣本時,一些課程導師才了解到這個數據集的存在,以及他們的課程材料被納入其中。
這些都是正在通過機構渠道進行處理嚴重的問題,因此我們沒有輕率地在公開場合對此進行聲明,但我們認為解釋為什麼這篇論文不應該被發表並且必須被撤回是很重要的。
我們已要求Iddo從arXiv上撤回論文,並直接聯繫了arXiv,解釋了這個情況。
我們想強調的是,在這篇論文中,所有學生作者都非常努力地工作,如果數據是經過同意收集的話,這篇本來可能是非常有趣和有價值的論文。已發表的論文的許多問題並不是學生的過錯。
而且,GPT-4不能獲得麻省理工學院學位。
網友:怕不是甩鍋吧
對於這份聲明,LeCun轉發點評道,“感謝澄清”。
曾指出問題的Raunak Chowdhuri,也已經把更新進行了置頂。
不過,有網友指出,這篇論文的問題並不在於有沒有“同意”發表,而是在於“方法”本身。
而現在看起來是,這些作者希望自己的名字出現在這篇可能會爆火的論文上,但又不希望承擔出錯之後的責任。
如果論文並沒有被人“打假”,那麼也不會有這篇所謂的“公開聲明”——迫使其中一些作者與論文割席。
顯然,作為論文的共同作者,你必須對你署名的工作質量負責。
也有網友表示:“這是我一生中見過最糟的替罪羊。”
有趣的是,除了論文“造假”被人抓包之後的急忙甩鍋——我雖然署名了,但這個問題和我無關。此前在頂會IJCAI 2016上也出現了原理相似的一幕——在論文被接收後,瘋狂拉人。
“作者X其實參與了,只不過我們沒來得及寫上。”
文章地址:http://ijcai-16-pc.blogspot.com/2016/04/the-increasing-practice-of-expanding-co.html
就在接收名單發送後的第二天,我們發現,有人試圖向他們已被接受的論文裡添加額外的合作者。
我理解有時在論文提交後,可能會從同事那裡得到非常重要的幫助,我們自己的研究組也偶爾這樣做。但突然有50多篇論文都需要,就有些奇怪了。
更令人驚訝的是,其中有很多人發現,他們不僅有一位被遺忘的合作者,而是有“多位”(有時多達4個)被遺忘的合作者。
顯然,諺語“成功有很多父母,而失敗則無人問津”在這裡得到了充分的體現。
不過,我們在審稿期間每週都會備份截圖,所以知道所有論文的原始作者。(這也是最終在接收名單上所呈現的)。
GPT-4攻破MIT考試
GPT-4在MIT考試中開掛這個結果一經公佈,吸引了眾多目光。
同樣的測試,GPT-3.5搞定三分之一,而GPT-4全拿下了。
這張圖表,便成為論文中最亮眼的那一部分。
6月15日,由MIT、波士頓大學,以及康奈爾大學的研究團隊發表最新論文,展示了GPT-4在MIT考試中的能力。
論文地址:https://arxiv.org/pdf/2306.08997.pdf
論文中,研究人員自製了一個數據集,其中涵蓋了4550個問題和解決方案。
這些包括,MIT數學系和EECS的學生獲得本科學位的課程問題集、期中考試和期末考試。
具體如下:
研究人員從數據集中隨機生成228個問題,不涉及已有圖像和解決方案的問題。
然後,讓5個最先進的語言模型模型一起參加了這場考試:GPT-4、GPT-3.5、StableVicuna-13B、LLaMA-30B和LLaMA-60B。
最終結果發現,經過調優後的GPT-4,拿到了100%的分數。而原始版本的GPT-4,沒有經過任何調優,也拿下了90%的分數。
而具體調優過程,如結果圖中所示,包括Few-shot+CoT+Self-critique+Experts。
每增加一個調優環節,GPT-4的能力也就躍升一步。
而這篇研究當時有爭議的地方,就在於讓GPT-4給自己打分。
研究團隊在數據集上,微調GPT-4,給定問題Q,基準解S,和LLM的答案A,便使用GPT-4自動對模型響應進行了評分。
GPT-4給自己打滿分,確實值得懷疑。
客座教授被指“搶發”論文
Iddo Drori
Iddo Drori是波士頓大學計算機科學實踐副教授,麻省理工學院的客座副教授,以及哥倫比亞大學的兼職副教授。
此前曾是麻省理工學院EECS的講師,康奈爾大學運籌學和信息工程學的客座副教授,以及紐約大學數據科學中心、Courant研究所和NYU Tandon的研究科學家和兼職教授。
他擁有計算機科學博士學位,並在斯坦福大學統計學領域進行過博士後研究。他還擁有組織行為學和創業管理的MBA學位,並擁有十年的工業研究和領導經驗。
Iddo Drori的主要研究領域是機器學習、人工智能和計算機視覺,發表了70篇論文,被引用超過5200次,教授過35門計算機科學課程。
他是劍橋大學出版社出版的教材《深度學習的科學》的作者。他在計算機視覺會議上贏得過多項競賽,並在機器學習會議上獲得過多個最佳論文獎項。
而就在剛剛,有網友敏銳地發現:“Iddo現在不僅去掉了LinkedIn主頁上『麻省理工學院客座教授』的頭銜,而且他的客座職位似乎即將在這個月結束。”
三位共同作者
Armando Solar-Lezama
Armando Solar-Lezama是麻省理工學院的電氣工程和計算機科學(EECS)教授,同時也是計算機科學與人工智能實驗室(CSAIL)的副主任兼首席運營官。
他是由美國國家科學基金會(NSF)資助的Expeditions項目“通過代碼理解世界”的首席項目負責人,並且還是一個創建交互式演示文稿的在線平台——playskript的創始人。
他的研究重點是程序合成。這是一個令人興奮的研究領域,一方面,程序合成涉及使用自動推理和學習來幫助將更多自動化引入編程過程。另一方面,代碼提供了一種獨特的建模機制,因此程序合成可以在構建更可預測和穩健的學習系統方面發揮重要作用。
Tonio Buonassisi
Tonio Buonassisi是麻省理工學院的機械工程教授。他的研究主要集中在太陽能光伏和技術經濟分析領域,在許多公司的技術發展中發揮了重要作用,因此獲得了美國總統早期科學家和工程師獎(PECASE)、美國國家科學基金會職業獎(CAREER Award)和Google教師獎。
在MIT,Tonio Buonassisi是可持續發展加速材料實驗室的負責人,領導可持續材料開發的研究工作。他還曾擔任新加坡加速材料製造計劃的創始主任。此外,他還共同創辦了初創公司Xinterra以及非營利性組織Fraunhofer可持續能源系統中心。
Tonio Buonassisi在教育方面展現出了極高的熱情和才能。他曾榮獲麻省理工學院Everett Moore Baker傑出本科教學獎,他的教學影響不僅局限於課堂,還通過其OpenCourseware/YouTube光伏講座系列獲得了超過179,000次觀看。他最近還製作了一系列名為“加速材料製造”的YouTube視頻,重點關注人工智能在材料研究中的應用。
Yoon Kim
Yoon Kim是麻省理工學院(EECS/CSAIL)的助理教授。之前在哈佛大學獲得計算機科學博士學位,導師是Alexander Rush。
他的研究興趣包括:大規模模型的高效訓練和部署、理解大語言模型的能力和限制、用符號機制控制和增強神經網絡、計算和人類語言處理之間的聯繫。
變了味的研究
現在,GPT-4可以說是已經被推崇成了LLM領域的全新“基準”。
這種趨勢一方面在迫使研究人員將自己的工作與其進行比較,另一方面又催生了相當一部分只為跟風和炒作的研究。
不僅如此,OpenAI在GPT-4技術報告中開創的“黑盒”方法,也被其他人紛紛效仿。
在HackerNews的討論中,一位用戶表示,機器學習已經不再是一個科學領域,而是變得像社會科學一樣,建立在另一種不可證偽和不可重現的研究之上。
有媒體稱,這次事件無疑是在人工智能領域樹立了一個糟糕的先例,讓大家對研究的真實性產生了質疑——互聯網上有多少論文實際上是有問題的?
隨著“基準”GPT-4開始涉足文章的撰寫階段,論文的質量預計還會有進一步下降。