史丹佛爆火Llama3-V竟抄襲中國開源專案作者火速刪庫
在GPT-4o 出世後,Llama3 的風頭被狠狠蓋過。 GPT-4o 在影像辨識、語音理解上卓越的表現展現了它強大多模態能力。開源領域的領頭羊Llama3 幾乎在所有基準測試中都超越了GPT-3.5,甚至在某些方面超越了GPT-4。這次就要悶聲「吃癟」了嗎?
5 月29 日,一個來自史丹佛的研究團隊發布了一個能夠「改變現狀」的產品:Llama3-V,號稱只要500 美元(約為人民幣3650 元),就能基於Llama3 訓練出一個超強的多模態模型,效果與GPT4-V、Gemini Ultra 、 Claude Opus 多模態表現相當,但模型小100 倍。
Github 專案連結:https://github.com/mustafaaljadery/llama3v(已刪庫)
HuggingFace 專案連結:https://huggingface.co/mustafaaljadery/llama3v(已刪庫)
用這麼少的成本,創造出如此驚豔的成果,Llama3-V 在Twitter上迅速爆火,瀏覽量突破30 萬,轉發超過300 次,還衝上了“ HuggingFace Trending ”Top 5。
但沒發售兩天,Llama3-V 就遭遇了重重質疑。有人指出,Llama3-V 計畫中有一大部分似乎竊取了清華大學自然語言處理實驗室與面壁智慧合作開發的多模態模式MiniCPM-Llama3-V 2.5。
MiniCPM-V 是以圖文理解為導向的端側多模態大模型系列。 MiniCPM-Llama3-V 2.5 是該系列的最新版本。其多模態綜合性能超越GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用封閉源模型。 OCR 能力及指令跟隨能力進一步提升,並支援超過30 種語言的多模態互動。這樣的優秀性能,不僅讓MiniCPM-Llama3-V 2.5 成為受大家推崇的模型,或許也成為了Llama3-V 的「模仿」對象。
專案網址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md
可疑的作者答复
HuggingFace 用戶JosephusCheung 在專案的評論區中提出問題,Llama3-V 是否在未提及的情況下使用openbmb/MiniCPM-Llama3-V-2.5 進行了訓練。而作者回應表明,Llama3-V 使用了MiniCPM-Llama3-V-2.5 的預訓練tokenizer,並且是在它發布之前就開始了這項工作。這樣的解釋明顯出現了時間錯位,加重了大家的懷疑。
細扒其中貓膩
此外,還有一位名為Magic Yang 的網友也產生了質疑,他對這兩個模式的相似性也有著更深的洞見。
他首先在Llama3-V 的GitHub 專案Issue 中發布了他的疑問,沒想到Llama3-V 的作者們很快就刪除了質疑貼文。
在這個Issue 中,他首先提出,Llama3-V 與MiniCPM- Llama3-V 2.5 具有相同的模型結構和配置文件,只是變數名稱不同。 Llama3-V 的程式碼幾乎完全複製MiniCPM-Llama3-V 2.5,只是進行了一些格式上的修改,包括但不限於分割影像、tokenizer、重採樣器和資料載入部分。
Llama3-V 的作者立刻回复,稱Llama3-V 在架構上參考的是LLaVA-UHD,並列出了在ViT 和LLM 選擇上與Mini CPM-Llama3-V 2.5 的差異。
但Magic Yang 發現,相較於LLaVA-UHD 所使用的方法,Llama3-V 與MiniCPM-Llama3-V 2.5 可謂一模一樣。特別是Llama3-V 使用了與MiniCPM-Llama3-V 2.5 相同的,連MiniCPM-Llama3-V 2.5 新定義的特殊符號都「抄」上了。
於是,他向作者提問,為什麼Llama3-V 在MiniCPM-Llama3-V2.5 計畫發布之前,就未卜先知似的拿到了其tokenizer?這似乎算是追問了作者對JosephusCheung 的回答。
Llama3-V 作者回答稱,他參考了MiniCPM-V-2 的tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5採用了新的tokenizer 和原始版本中的特殊符號,因此Llama3-V 的程式碼中保留了這個符號,但Llama3-V 與MiniCPM-Llama3-V2.5 是完全不同。
但事實是,MiniCPM-V-2 的tokenizer 與MinicPM-Llama3-V2.5 完全不同,在Hugging Face 裡是兩個文件,文件大小也完全不同,也不包含Llama3-V 所用到的與Llama 3 有關的tokenizer。
Magic Yang 也發現了Llama3-V 的作者在Hugging Face 上傳專案時,直接匯入了MiniCPM-Llama3-V 2.5 的程式碼,後來才把一些檔案裡的名稱替換為Llama3-V。
於是,Llama3-V 的作者的作者再次回复,稱Magic Yang 的指控大錯特錯。首先,想要運行HuggingFace Transformer,需要給模型寫入配置文件,但是他們恰好發現MiniCPM 的配置能用,因此,他們使用了與MiniCPM 相同的配置。其二,Llama3-V 的模型架構SigLIP 的靈感來自Idéfics ,作者之前也提到,Llama3-V 模型架構參考的LLaVA-UHD 同樣如此,並且在視覺代碼方面,他們借鑒了Idéfics ,並非照搬MiniCPM。
更令人驚訝的是, Magic Yang 發現Llama3-V 專案的作者似乎不理解自己的程式碼,或許也不明白搬來的MiniCPM-Llama3-V 2.5 架構中的細節。
感知器重採樣器(Perceiver Resampler)使用的是單層交叉注意力,而非雙層自註意力。然而,下圖中的Llama3-V 技術部落格中的描述明顯存在誤解。
Llama3-V 的技術博客
Llama3-V 的代碼
此外,SigLIP 的Sigmoid 活化功能並不用於訓練多模態大語言模型,而是僅在SigLIP 的預訓練過程中使用。看來,作者對於自己的程式碼理解還是有很大偏差的。
Llama3-V 的技術博客
Llama3-V 的代碼
對於清華NLP 實驗室和麵壁智慧團隊特別採集和標註,從未對外公開的專有數據,Llama3-V 的表現也非常出色。 「清華簡」是一種非常特殊且罕見的中國戰國時期的古文字,而美國模型Llama3-V 不僅認識中國古文字,在認錯字的時候,也和MiniCPM-Llama3-V 2.5 一模一樣。
有網友用1000 張竹簡圖像對同類模型進行了測試,正常情況下,每兩個模型之間的重疊應該為0,而Llama3-V 和MiniCPM-Llama3-V 2.5 之間的重疊高達87%。辨識錯誤的結果Llama3-V 和MiniCPM-Llama3-V 2.5 也有高達182 個重疊。
刪庫?也不管用
在重重質疑之後,Llama3-V 的作者行動了。先前宣傳Llama3-V 的Twitter內容流已不可見。
他還隱藏了HuggingFace 的倉庫。 Magic Yang 再次發難,問Llama3-V 的作者為何在HuggingFace 上將模型設為私密?
作者稱,設為私密是為了修復Llama3-V 的推理功能,MiniCPM 的配置與Llama3-V 不相容,當時HuggingFace Transformers 無法正確地加載模型,為了避免下載模型的用戶運行失敗,他將進行一些修復。
同樣地,Llama3-V 的GitHub 專案首頁也顯示為「404」。
GitHub 網址:https://github.com/mustafaaljadery/llama3v
這些舉動顯然是為了回應社區的強烈反應和對模型來源合法性的質疑。但這樣的逃避似乎並不管用。即使Magic Yang 與對話已經隨著專案頁面404 而隱藏。但Magic Yang 已將對話截圖評論在了MiniCPM-V 的GitHub 頁面。
根據網友回饋,當執行Llama3-V 時,作者提供的程式碼無法與HuggingFace 上的checkpoint 相容。然而,當Llama3-V 模型權重中的變數名稱改為MiniCPM-Llama3-V 2.5 後,就能成功運作。
如果在MiniCPM-Llama3-V 2.5 的checkpoint 上加入一個簡單的高斯噪聲,就會得到一個在各個測試集上的表現都與Llama3-V 極為相似的模型。
有網友上傳了Llama3-V 刪庫前的檢查點,大家可以自行測試驗證。
檢查點連結:https://twitter.com/zhanga6/status/1797293207338041719
有人認為,這是關乎道德、誠信與聲譽的問題。如果抄襲得到驗證,史丹佛大學應該介入調查。
圖源:X@AvikonHadoop
在國內外輿情發酵了兩天后,作者之一站出來道歉,稱「抄襲」源於對隊友Mustafa 的盲信。