假開源真噱頭? Meta再陷開源爭議LeCun被轟炸Meta只是開放模型
大模型開源的熱潮下,隱藏著諸多問題,從定義的模糊到實際開放內容的局限性,Lecun再陷Meta大模型是否真開源的質疑風波只是冰山一角。在熱火朝天的大模型市場,早已形成了「開源派」和「閉源派」兩大門派。開源被視為技術共享和創新的重要方式。實際上,大模型開源相比傳統軟體開源,情況更複雜。
在開源的定義、性質、開放內容和開源策略上都有不同的標準和內容。
因此,「開源派」的帽子並不是那麼好戴的。
Meta發布了Llama系列生成AI模型的最新版本Llama 3 8B和Llama 3 70B並宣稱是完全開源的,就引來了許多質疑。
Llama 3模型並不是真正意義的開源,至少不是依照最嚴格定義的開源。
開源意味著研究開發人員可以自由選擇如何使用這些模型,不受限制。
但在Llama 3的一些案例中,Meta對於一些許可的授權進行了限制。
例如,Llama模型不能用於訓練其他模型;擁有超過7億月活躍用戶的應用程式開發人員則必須向Meta申請特殊許可證。
許多學者和研究機構也注意到了對於「開源」一詞的濫用情況,許多標榜為「開源」的大模型都存在重大限制,「真假開源」存疑。
diss閉源卻「翻車」?
Meta掌門人Mark Zuckerberg在上週四發表的一篇訪談中談到了他對人工智慧未來的看法,他深信「不會只有一種人工智慧」。
Zuckerberg著重了開源的價值,也就是把人工智慧工具交到許多人手中。
他還不忘diss那些他認為不夠開放的競爭對手,並補充說他們似乎認為自己在「創造上帝」。
小扎的訪談句句綿裡藏針,原話也有許多值得細品的點。
「I find it a pretty big turnoff when people in the tech industry…talk about building this ‘one true AI,’ It’s almost as if they kind of think they’re creating God or something and…it’s just—that’s not whatwe’ re doing, I don’t think that’s how this plays out.”
當科技業的人…談論打造「唯一真正的人工智慧」時,我覺得這讓人非常反感。這幾乎就像是他們認為自己在創造上帝之類的東西,而這根本不是我們正在做的事情,我也不認為事情會這樣發展。
小扎認為,打造唯一真正的AI聽起來刺耳又令人反胃,暗含一種壟斷和控制的野心,你是“唯一真正的AI”,那其他AI都是歪門邪道?
其次,創造上帝是用來諷刺追求「唯一真正的AI」的人,狂妄地想要掌握AI領域的絕對話語權。
最後,小札趕緊和這些人劃清界限,不是一路人。
可見,小札認為AI世界應該是百花齊放、百家爭鳴的,一家獨大絕不可取。
CEO的言論也代表了Meta的態度,Meta一直以來都宣傳秉持著開放的態度,Zuckerberg更是開源的堅定支持者。
diss一出也會面臨各種評論「diss back」的挑戰,你說你是開源,真的嗎?
Meta的首席人工智慧科學家Yann LeCun上個月在LinkedIn上發布了有關Meta公司免費發布大型語言模型策略的貼文。
一些評論者對其做法大加讚賞,稱其正在「重塑行業合作」。
也有人不同意LeCun將這項策略描述為「開源」。
一位評論者寫道,“這絕對只能叫做開放模式而非開源,稱某些東西為開源而實則並非開源,實在是對開源運動的曲解。”
另一位評論者說,“很遺憾,在這種情況下,開源只是數據洗錢的營銷手段。”
第三位專家建議Meta將Llama模型稱為“開放權重”,而不是“開源”。因為該公司共享模型權重,但不共享訓練資料等資訊。
這似乎是語意學上的爭論。但是,一些模型,包括Meta、法國Mistral和德國Aleph Alpha的模型,是否真正開源,已經成為人工智慧工作者,尤其是學術研究人員之間反覆爭論的問題。
對於這個問題的答案也會帶來相關政策的導向。
歐盟的《人工智慧法》規定,開源模型不受某些法條的限制。
如果歐盟認為某個模型是開源的,那麼它可能會要求模型製作者必須公開如何開發模型的資訊。
什麼才算「開源」?
這種爭論源自於開源人工智慧缺乏一個明確的定義。
為開源軟體製定標準的「開源計畫」目前正在製定開源人工智慧的定義。
它對開源軟體的定義有幾個標準,包括軟體必須允許自由再分發並包含原始碼。
除此之外,該非營利組織和其他開源軟體的支持者也強調科技的透明度和同儕審查制度。
但一些開源支持者表示,開源軟體的傳統定義並不能很好地詮釋AI大模型開源。
軟體開源是指原始碼的開源,拿到原始碼就能「知其然而知其所以然」,可以在原始碼的基礎上,進行修改優化或增加新功能。
然而,許多自稱開源的大模型開發者並不是真正的開源,雖然這些大模型提供了部分程式碼和訓練好的權重,但在訓練資料和具體訓練過程透明度卻有所欠缺,或者很少分享他們的模型是如何訓練和微調的。
例如,Meta的Llama3要求每月活躍用戶超過7億的公司申請許可證,而這些公司的申請後享有的權利可能比Llama3的一般協議還要少。
OSI尚未批准Meta的許可證,這表明該組織認為開發者遵循了其開放原始碼軟體標準。
OSI執行董事Stefano Maffulli在接受TechCrunch採訪時說,“參與評審的其他人都完全同意,Llama本身不能被視為開源。與我交談過的在Meta工作的人都知道,這有點牽強。”
在OSI為開源人工智慧下定義的同時,一些研究人員和學者也開始自己動手。
荷蘭拉德布德大學語言研究中心的教授們上個月提出了一個新的框架,用於評估一個模型是否開源,該框架基於可用性、文件和訪問許可相關的14項標準。
該框架並未敲定一個模型的程式碼是開放的還是封閉的,而是為14項標準中的每一項劃定一個等級:開放、部分開放或封閉。
因此,在這一框架下,Meta的Llama2被評為封閉代碼,而不是開放代碼。
因為「該模型的源代碼都沒有公開,而且隻共享了運行該模型的腳本」。
相較之下,研究小組BigScience Workshop的BloomZ模型在這一標準上被評為開放,因為它「提供了用於訓練、微調和運行模型的源代碼」。
論文作者、拉德布德大學語言技術助理教授Andreas Liesenfeld表示,“我們發現,模型製造商存在過度行銷的問題,他們將自己的產品宣傳得比他們所說的更開放。”
他補充說,“如果不了解模型是如何訓練的以及訓練的內容,就很難解決法律責任和公平性的問題。”
與此類似,史丹佛大學基金會模型研究中心的研究人員去年10月推出了基金會模型透明度指數,根據100項指標來衡量模型開發人員的透明度。
論文網址:https://hai.stanford.edu/news/introducing-foundation-model-transparency-indexhttps://crfm.stanford.edu/fmti/fmti.pdf
該指數為Meta在模型基礎知識、存取和能力方面的透明度打了高分,但在數據和勞動力方面的透明度較低。
該指數的共同創建者、史丹佛大學電腦科學副教授Percy Liang說,「擁有開放權重或開放原始碼的模型、訓練資料和程式碼,對於學術機構、研究人員或只想了解科學的公司來說,將是一個巨大的好處。
大模型作為黑盒子,模型中可能存在各種不確定的東西,只有對模型所訓練的資料有實際的保證,才能真正確保模型足夠「開源」。
開源內容的局限性
一般開放的內容
在絕大多數宣稱自己是開源模型的案例中,開源大模型通常只開放以下幾部分內容。
程式碼:實現大模型訓練和推理所需的程式碼,包括模型架構、訓練演算法、模型推理等核心程式碼。
這些程式碼讓開發者能夠理解模型的基本結構和推理過程,但無法完全重現或改進模型,增加功能等等。
權重:訓練完成後所得到的模型參數,這些參數是模型在推理過程中所需的核心要素。
權重資料使得開發者能夠在現有模型基礎上進行相關推理,但對模型的核心訓練細節,例如如何進行模型訓練卻一無所知。
例如,Meta的Llama系列模型只開放了模型的權重和部分程式碼,而訓練資料和特定訓練過程的詳細資料卻守口如瓶。
這種有限的開放性使得開發者只能使用現有模型進行推理,依葫蘆畫瓢,而無法深入理解或改進模型。
未開放的關鍵內容
然而,對於大模型來說,真正決定其性能的關鍵在於這些通常保密的訓練資料和訓練過程。
訓練資料:原始訓練用的資料集和資料來源,以及在訓練過程中進行資料處理和預處理的細節。
這些數據通常包含大量的高品質、具代表性的文字數據,對模型的表現至關重要。
然而,大部分開源模型並未公開這些訓練資料。
例如,Llama系列模型雖然提供了訓練好的權重,但並未公開其訓練所使用的資料集及其詳細資訊。
缺乏這些數據,開發者就無法對模型進行重新訓練或在相似任務上進行微調。
訓練過程:具體的訓練步驟、參數設定、最佳化方法等。
這些細節決定了模型的訓練效果和最終性能,但在所謂的「開源」大模型中,這些資訊往往是閉源的。
例如,儘管一些大模型提供了部分程式碼和權重,但訓練過程中使用的超參數、資料增強方法、訓練策略等關鍵細節並未公開。
這種不完全開放的做法使得開發者在復現模型時面臨諸多困難,無法真正掌握模型的核心技術,限制了他們對模型進行最佳化和改進的能力。
實際上,它們提供的只是使用現有模型的使用便利,而不是完全的技術透明和開發自由。