Sora「炸場」 中美AI差距有多大?
Sora,已經成為人工智慧界的開年「王炸」。2月16日,OpenAI發布Sora大模型,僅需通過文本即可自動生成視頻,這也是繼文本模型ChatGPT和圖片模型Dall-E之後,又一極具顛覆性的大模型產品。
文字生成影片並非始於Sora。據不完全統計,截至去年年底,全球已經湧現了包括Runway、Pika、Stable Video Diffusion在內的超過20款同類產品。但Sora的登場無疑帶來了一場革命性衝擊,其展現出來的卓越性能近乎達到對同類產品的「碾壓」等級。
OpenAI祭出Sora後,中美的AI差距會如何演變,這一步是“天塹”,還是“咫尺”?
Sora
顛覆性“世界模型”
AI差距會加大?
Sora所展現的顛覆性體現在多個維度,可以直接輸出的影片長達60秒,影片內含複雜精細的背景環境、動態多變的運鏡、多樣化的角色表現以及一鏡到底或切換多機位的無縫對接,從人物微妙的表情變化至動物生動的姿態模擬,都足以以假亂真。
在OpenAI發布的影片中,一名時尚女性走過喧鬧繁華的東京街頭,背景建築、街道以及人像的逼真程度,都保持了高度一致性,即使是各種鏡頭的蒙太奇,都沒有出現明顯的失真。
有人評價,由Sora生成的視頻,無論是光影色彩的轉變,還是鏡頭移動,甚至細微到紋理結構變化,都呈現出較高質感。它還能模擬現實世界的物理規律,像「一杯咖啡中,兩艘海盜船展開了激烈的戰鬥」這段視頻,不僅呈現了咖啡的流體動力學和逼真的光影渲染,還運用了光線追踪和移軸攝影技術等,技能強大。
OpenAI強調,“Sora是能夠理解和模擬現實世界模型的基礎,我們相信這一功能將成為實現通用人工智慧(AGI)的重要里程碑。”
Sora的橫空出世引發了關於中美AI差距是否進一步加大的熱議。360公司週鴻礪指出,儘管國內大模型發展水準接近GPT-3.5,但與GPT-4.0相比仍存在一年半左右的差距。
週鴻禕認為,OpenAI可能還握有未公開的秘密武器,“中國跟美國的AI差距可能還在加大。”
同時,不少業內人士表示,中美AI發展的根本差距或許不在於科技本身。
OpenAI
數據是“秘密武器”
遊戲引擎或關鍵
《IT時報》記者註意到,根據OpenAI發布的技術報告,Sora強大能力歸功於兩點:其一是使用了基於Transformer的擴散模型(Diffusion Model);其二是將不同類型視覺數據轉化為統一格式——像素塊(patch),因此能利用數量龐大、品質過硬且算力性價比高的資料。
在技術報告中,OpenAI並沒有揭露訓練來源和具體細節,業內人士認為,數據很可能是Sora成功的最關鍵因素之一。
「我覺得最核心的一點是OpenAI有足夠的數據。」Logenic AI聯合創始人李博傑向《IT時報》記者表示,OpenAI之所以能夠在生成模型領域取得突破,主要原因在於,其數據質量和數量上的顯著優勢。
浙江大學百人計畫研究員、博士生導師趙俊博在接受澎湃新聞採訪時也表示,對於Sora採用了怎樣的數據進行訓練,圈內依然眾說紛紜,推測可能是運用了遊戲引擎生成的大規模數據: “可能是遊戲引擎裡面吐出來這種數據,但它這個數據到底怎麼收集、如何生產加工,最後如何餵到Sora裡面進行管線化的預訓練,我們確實不知道。”
OpenAI曾發布兩個20秒長的Sora版《我的世界》演示視頻,研究人員向Sora提供包含“Minecraft”(《我的世界》遊戲)一詞的提示後,Sora可以渲染出與《我的世界》遊戲極為相似的HUD、高保真度渲染世界及遊戲動態,同時也能控制玩家角色。
值得一提的是,去年8月,OpenAI官員宣了有史以來第一次收購,收購對象為製作開源版《我的世界》的新創公司Global illumination。李博傑猜測,從Sora版《我的世界》示範成果來看,OpenAI對Global illumination收購或許為Sora的資料累積做了一定貢獻。
在算力方面,雖然OpenAI訓練Sora模型使用的GPU卡數量並非無法企及,但其他公司在具備足夠硬體資源的情況下,仍然難以複製OpenAI的成功,主要瓶頸還是在於如何取得和處理大規模高質量的視訊數據。
《IT時報》記者註意到,收購Global illumination的同時,OpenAI宣布以創新方法來訓練AI模型,有望省去標註大量資料的訓練過程。
彼時OpenAI所公佈的VPT“視頻預訓練模型”,讓AI學會了在《我的世界》裡從頭開始造石鎬。原本整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。而研究人員首先收集一波數據標註外包們玩遊戲的數據,其中包含影片和鍵鼠操作的記錄。然後,利用這些數據製作逆動力學模型(inverse dynamics model,IDM),從而推測出影片裡每一步在進行的時候,鍵鼠都是怎麼動的。
這樣,整個任務就變得簡單多了,只需比原來少很多的數據就可以實現目的。這項研究發表於2022年6月,同時文中也註明這份工作已經進行了一年之久,也就是說,OpenAI至少從2021年起就開始進行這項研究。
「即使是Google這樣全球資料量最大的公司,在訓練大模型時,訓練資料也未必能比OpenAI更好。」相較之下,國內公司在資料上的累積和利用上可能還有一定差距。李博傑認為,OpenAI的先發優勢決定了早期的數據壁壘,對於後進入市場的公司來說,增加了追趕的難度。
一方面,由於政策變化和其他限制,後來者可能無法獲取之前可用的一些關鍵數據;另一方面,隨著AI生成內容越來越多地充斥互聯網,原始的真實世界數據被“污染”,使得取得高品質、無偏見的訓練資料更加困難。
這與GPT-4的情況類似,儘管其成功離不開強大的算力支持,但最核心的競爭優勢仍然是龐大、高品質的資料集。許多其他公司即便有充足的運算資源,但在建立和利用同等規模與品質的資料集上遇到了挑戰,因此未能及時跟進推出類似的尖端模型。
國內AI
文本大模型進步明顯
多模態大模型差距較大
OpenAI在技術報告中承認,Sora可能難以準確模擬複雜場景的物理原理;可能無法理解因果關係;也可能混淆提示的空間細節;可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡等。
「Sora本質上還是一個規模相對比較小的模型。」對此李博傑認為,Sora出現更大的意義是證明了構建世界模型的重要性,並為行業指明了一條正確的研究路徑,但未來的發展趨勢依然是像GPT-5這樣端對端多模態大模型,能夠更好地理解並產生包含複雜情節和邏輯的內容。
李博傑告訴《IT時報》記者,目前國內外在AI大模型發展的差距主要體現在多模態模型的發展。在國內,部分公司已經能在文本模型上取得顯著成果,達到或超過GPT-3.5的水平,並正朝著GPT-4的方向努力追趕,這顯示出國內企業在單一文本處理領域的實力和進步速度。
然而,在多模態模型研發方面,國內許多專注於大模型開發的公司可能尚未充分認識到多模態技術的重要性,沒有投入足夠的人力、物力及財力進行相關研發。李博傑認為,市場上普遍認為GPT-4等文字模型表現優秀,因此更將重點放在文字處理上,而忽略了多模態模型的建構與發展。
另外,國內公司在探索創新路徑時可能會受到資源限制,包括算力、人才密度等方面的製約,相較擁有龐大計算資源和頂尖人才集中的OpenAI等歐美公司,中國公司在自主創新方面面臨更大的挑戰。因此國內企業傾向於跟隨國際領導者已驗證的技術路線,這種策略相對更為穩健且高效,可以快速縮短技術差距。
對齊
國外大模型成本太高
國內應用場景是機會
不少業內人士認為,在底層基礎技術原理上,Sora 並未有實質性的突破,廣發證券分析,Sora或應更多理解為類似於ChatGPT,基於同樣的技術原理,在暴力美學下的又一次重要「量變」。
中科深智創辦人兼CEO成維忠接受媒體採訪時表示,Sora演算法意義上突破不大。Sora一方面透過極致的暴力美學,用巨量算力解決幀與幀之間的時序一致性問題,即在Sora中,不但用擴散模型解決同一幀的生成,也用擴散模型解決幀之間的時序生成,這也決定了Sora的影片生成成本在短時間內無法降低。在無法解決“幻覺”的情況下,要想生成真正可控可用的視頻,短期內成本高昂。
這些限製或許也將成為後來者的機會。
「就像現在大家公認GPT-4是最厲害的,但你要真的做公司,會發現根本堅持不了幾天,因為GPT-4太貴了。所以我們真正在公司裡面使用的這些模型大部分都不是GPT-4,或是用的是開源大模型,能用7B的就不用70B的,能用70B的就不用GPT-4,價格能差100倍以上,成本是一個非常關鍵的因素。」李博傑透露。
正如其所說,GPT-4雖然強大,但成本確實是一個現實問題,這也促使企業在實際應用中選擇性價比更高的解決方案,如開源模型或規模更小的商用模型。而針對Sora視頻生成,李博傑估算其一條視頻的成本在幾美元到幾十美元不等,如果普及到大眾使用,成本需要降到目前的1%才能接受,降低成本的同時提高生成質量和邏輯連貫性,是亟待解決的關鍵挑戰。
事實上,隨著AI技術的發展,內容生產的各個環節都已經開始經受影響並且發生深刻變化。
產品經理Mixlab無界社群與ComfyUI中文愛好者社群發起人PM熊叔告訴《IT時報》記者,對於本地市場的需求,諸如百度文心一言等國內研發的大規模預訓練模型,在滿足普遍性應用場景時展現出相當不錯的實用性,但在處理複雜需求時,還是與國外頂尖大模型有一定差距。不過,對於大部分現有的生產工具需求而言,目前開源和國內商業化模型已經能夠提供基本可用且較為滿意的服務,尤其是隨著應用場景的逐漸豐富,國內大模型落地在加速。
PM熊叔注意到,去年上半年,AI在內容生產中還只是承擔一些簡單的配音工作,用於批量生產質量較低的影視解說等場景。但到了下半年,AI技術進一步滲透到內容製作的重要環節,如重繪動畫作品,正規團隊開始利用AI技術來提升作品品質和降低生產成本。另一方面,AI化的分析和輔助工具也在影視產業中逐漸普及,改變了原有的創作流程,使得專業影視作品能夠透過AI生成的方式降低成本並提高可控性。
在這過程中,開源社群的力量不容小覷。PM熊叔指出,OpenAI的部分模型雖然並未完全開源,但其研究成果和論文發表對全球科學研究團隊和開源社群具有重大啟發作用。一旦有類似功能的論文或部分技術細節被公開,眾多開源團隊和開發者會迅速跟進,復現、改進並推出開源版本的模型。例如,GPT系列的成功激發了許多開源專案去建立類似的語言模型,這些模型在不斷優化和迭代之後,其效能表現能夠逐漸逼近,甚至在某些特定任務上與閉源先進模型相媲美。
李博傑也認為,在泛娛樂類應用領域,國內公司藉助豐富生態與應用場景的優勢,或能在應用層面上實現追趕,並有機會透過出海拓展市場。