馬斯克、OpenAI決裂背後,大模型該開源還是閉源?
馬斯克起訴OpenAI事件已經發酵了一週。3月7日,馬斯克在推特上稱,如果OpenAI把名字改為ClosedAI他就撤銷訴訟,暗諷OpenAI的不開源行為。此前,OpenAI公佈了馬斯克與包括山姆·阿爾特曼在內的OpenAI聯合創始人的郵件對話,逐一駁回馬斯克的指控,並暗指其唯利是圖。
這次糾紛的焦點之一是馬斯克對OpenAI的開源要求。而這背後所折射出的也是AI浪潮下科學界的長期爭論話題──到底該開源還是閉源?
紐約大學坦登工程學院電腦科學與工程系副教授Julian Togelius接受《每日經濟新聞》記者採訪時表示,開源是大勢所趨。“開源對於防止權力集中很重要。到目前為止,每個大型模型都在某種程度上是’可越獄的’。”
麻薩諸塞大學洛威爾分校電腦科學教授Jie Wang則對每經記者表示,「未來各主要參與者都會將其大模型的某些部分開源,但絕對不是最重要的部分,例如用於訓練其大語言模型和預訓練模型權重的完整資料集。這或多或少類似於Meta開源LLaMA的方式。”
AI巨頭的決裂
2月29日,馬斯克在舊金山法院對OpenAI及公司CEO阿爾特曼和總裁布羅克曼提起訴訟,震驚全球科技圈。在馬斯克的起訴書中,他斥責OpenAI違背“初心”,要求OpenAI恢復開源並給予賠償。
3月5日,OpenAI曝光了馬斯克與他們的大量往來郵件,稱馬斯克提議OpenAI 與特斯拉合併或由他完全控制,但雙方未能就盈利性實體的條款達成一致。3月6日,馬斯克在Twitter上回复,“如何OpenAI改名為ClosedAI,我就撤銷訴訟。”
圖片來源:每經製圖
9年前,正是在AI上志同道合,馬斯克和阿爾特曼等人攜手創辦了非營利AI研究實驗室「OpenAI」來對抗以Google為代表的科技巨頭。而如今,馬斯克與阿爾特曼及其所在的OpenAI徹底決裂,雙方舊日堅持的「初心」成為矛盾焦點。
在OpenAI的官網主頁上寫著,「我們的使命是確保通用人工智慧(AGI)造福全人類。」最初,OpenAI的確作為一個非營利組織堅持著這樣的路線。而自GPT-2後,OpenAI採取了閉源策略,公司出售大模型API存取權限,但不再發布有關其訓練資料和模型架構的詳細資訊。
2019年,阿爾特曼還組建了一個由OpenAI非營利組織管理的營利性實體,以便從微軟等外部投資者籌集資金。對此,OpenAI在5日發文時曾解釋,這是因為「開發AGI 所需的資源遠超過最初預期」。
隨著OpenAI核心技術不再開源,與微軟的關係越來越密切時,馬斯克的不滿可想而知。馬斯克在起訴書中批評:「OpenAI已經變成了全球最大技術公司微軟事實上的閉源子公司。在其新董事會的領導下,OpenAI不僅在開發,而且實際上正在完善一種AGI,以最大化微軟的利潤,而不是造福人類。”
背後是開源閉源路線之爭
在雙方的爭端中,一個值得關注的點是,馬斯克要求OpenAI恢復開源。這折射出的也是AI浪潮下的一個爭議性議題──到底該開源還是閉源?
在開源閉源之爭上,馬斯克堅定地選擇了前者。
《每日經濟新聞》記者註意到,馬斯克旗下特斯拉的核心技術就已經在全球開源。根據新加坡顧問公司GreyB的統計,截至2023年末,全球範圍內特斯拉共擁有專利3,304項(不含核准中專利),其中有2,397項仍有效。根據媒體統計,刨除重複的情況,特斯拉共有222項開放專利。從技術類別來看,特斯拉開放的專利屬於比較核心的專利。
圖片來源:GreyB網站
馬斯克旗下另一家公司SpaceX也曾公開猛禽引擎圖紙。在去年12月接受外媒採訪時,馬斯克曾透露,“SpaceX不使用(獨佔)專利,完全開放。”
而將視角放大到整個科技界,開源還是閉源也是一直爭論不休的話題。2023年10月31日,「開源派」曾簽署了一份呼籲AI研發更加開放的聯名信,截至發稿,1,821名專家都簽下了名字。
圖片來源:mozilla官網
「開源對於防止權力集中很重要,我們不希望未來只有少數財力雄厚的科技公司才能控制前沿模型。」紐約大學坦登工程學院電腦科學與工程系副教授Julian Togelius在接受《每日經濟新聞》記者採訪時表示。「到目前為止,每個大型模型都在某種程度上是『可越獄的』。(開源讓)我們了解其弱點,才能知道如何更好地部署模型。」(註:「越獄」指的是透過提示注入技術修改模型的行為。)
麻薩諸塞大學洛威爾分校電腦科學教授Jie Wang也對每經記者稱,「開源程式碼可以提高透明度並有助於推進技術,世界各地的相關方可以幫助識別開發團隊未能發現的程式碼中的潛在陷阱,並提供更正。這有助於降低程式碼可能執行有害操作的風險。」不過,他也指出,開源並不是解決所有安全問題的靈丹妙藥。
而反對開源的一派則認為,開源AI會被不良行為者操縱。去年10月20日,來自麻省理工學院和劍橋大學的科學家發表了一篇論文,他們透過實驗研究了持續模型權重的擴散是否會幫助惡意者利用更強大的未來模型來造成大規模傷害,結果發現,開源大模型的確可能有風險。
Jie Wang對記者表示,「不同的態度取決於不同的身分。學術研究人員希望AI技術是開源的,以便可以評估和修改程式碼。另一方面,企業家可能為了保護投資和業務,而不願開放原始碼.”
科技巨頭與AI新貴在開源或閉源的問題上也採取了不同的路線。前者最近在互聯網上免費提供了其生成式AI的程式碼,例如,目前開源大模型被Meta的Llama主導,許多開源模型都是基於Llama而開發;後者如OpenAI和Anthropic則出售專有AI模型的API存取權限,但不共用程式碼。
OpenAI和Anthropic高層認為,政府應該監管最強大的AI模型,這樣壞人就不能輕易利用它們。今年1月,Anthropic 公司研究人員也發表論文警告稱,AI中毒可能導致開源大模型變成潛伏的間諜。
圖片來源:arxiv.org
但在去年9月的美國參議院人工智慧洞察論壇上,Meta執行長馬克·祖克柏等人卻認為,開源模式對美國保持競爭力至關重要,科技業可以解決對開源模式安全的擔憂。
若實現AGI,是否需要開源?
「開源是大勢所趨,我認為Meta正在引領這一趨勢,其次是Mistral AI、HuggingFace等規模較小的公司。」Julian Togelius 告訴《每日經濟新聞》記者。
儘管Mistral AI最初推出了開源模型,隨著規模的擴大,其作風似乎越來越像OpenAI靠近,採取了閉源路線。對此,Togelius表示,“他們需要以某種方式賺錢,但目前還不清楚如何在這個領域最好地賺錢,但Mistral AI比OpenAI 幾乎不開源的情況要好得多。”
而大型科技巨頭Google近日的動作似乎也是Togelius言論的驗證。今年2月,Google罕見地改變了去年堅持的大模型閉源策略,推出了「開源」大模型Gemma。有報導認為,Gemma代表Google大模型策略的轉變-兼顧開源與閉源,開源主打性能最強大的小規模模型,希望戰勝Meta和Mistral AI;閉源則主打規模大的效果最好的大模型,希望能盡快追上OpenAI。
去年5月,一份Google的內部文件曾在網路上激起千層浪。文件認為,開源大模型快速發展,正在侵蝕OpenAI和Google的陣地。除非改變閉源的立場,否則開源替代品最終將使這兩家公司黯然失色。「雖然我們的模型在品質方面仍略佔優勢,但(閉源和開源模型)的差距正在以驚人的速度縮小。」文件寫道。
「這(指的是Google的新舉措)對研究和開發人員來說的確是個好消息。」Jie Wang對每經記者說道。「不過我懷疑Google是否會將一切開源。我認為未來各個主要參與者都會將其大模型的某些部分開源,以便研究人員和開發人員了解模型的架構和訓練過程,但從業務角度來看絕對不是最重要的部分,例如用於訓練其LLM 和預訓練模型權重的完整數據集。這或多或少類似於Meta開源LLaMA的方式。”
而在對OpenAI的起訴書中,馬斯克也提到了對AGI(通用人工智慧)的擔憂。當被問及若達到AGI,是否需要開源時,Julian Togelius表示,「我不認為AGI是一個定義特別明確或有用的概念。如果你5 年前向某人展示Claude 3 或GPT-4,他們可能會認為我們已經實現了AGI。儘管如此,還有很多事情是大模型無法做到的。”
Togelius認為,OpenAI可能最終不會選擇開源,「因為這將決定性地改變我們對風險計算的看法,並最終消除人們認為OpenAI具有某種秘密武器的傾向(事實並非如此,Google 和Anthropic 都擁有相似強度的模型)。”
Jie Wang也向記者表示,“除非有一個可執行的國際法要求所有AI技術必須開源,而如何強制執行是另一個具有挑戰性的問題,我對OpenAI 是否會開源一切持懷疑態度。”