週鴻禕談Sora模型:中美AI差距可能還在加大
近日,OpenAI 發布了Sora 模型,該模型可根據使用者輸入的文字提示詞描述,產生一段60秒鐘的影片內容。從OpenAI公開的示範影片來看效果非常超現實。昨日,360董事長週鴻禕在微博發文,談到OpenAI的文字轉視頻模型Sora。他認為:Sora意味著AGI實現將從10年縮短到1年。
週鴻禕表示,AI不一定那麼快顛覆所有產業,但它能激發更多人的創作力。今天Sora 可能為廣告業、電影預告片、短片產業帶來巨大的顛覆,但它不一定那麼快擊敗TikTok,更可能成為TikTok的創作工具。
同時,週鴻禕也談到中美AI差距,他認為:OpenAl手裡應該還藏著一些秘密武器,無論是GPT-5,或是機器自我學習自動產生內容,包括AIGC。他們手上的武器並沒有全拿出來。這樣看來中國跟美國的AI 差距可能還在加大。
以下為全文:
Sora意味著AGI實現將從10年縮短到1年
年前在風馬牛演講上分享了大模型十大趨勢預測,沒想到年還沒過完,就驗證了好幾個從Gemini、英偉達的Chat With RTX到OpenA!發布Sora,大家都覺得很炸裂。朋友問我怎麼看Sora,我談幾個觀點,整體來說就是我認為AGI很快會實現,就這幾年的事兒了:
第一,科技競爭最終比拼的是讓人才密度和深厚累積。很多人說Sora的效果吊打Pika和Runway。這很正常,和創業團隊比OpenAl 這種有核心技術的公司實力還是非常強勁的。有人認為有了AI以後創業公司只需要做個體戶就行,實際今天再次證明這種想法是非常可笑的。
第二,AI不一定那麼快顛覆所有產業,但它能激發更多人的創作力。今天很多人談到Sora 對影視工業的打擊,我倒不覺得是這樣,因為機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、台詞的配合,都需要人的創意至少需要人給提示詞。一個影片或電影是由無數個60 秒組成的。今天Sora 可能為廣告業、電影預告片、短片產業帶來巨大的顛覆,但它不一定那麼快擊敗TikTok,更可能成為TikTok的創作工具。
第三,我一直說國內大模型發展水準表面看已經接近GPT-3.5 了,但實際上跟4.0 比還有一年半的差距。而且我相信OpenAl手上應該還藏著一些秘密武器,無論是GPT-5,或是機器自我學習自動產生內容,包括AIGC。奧特曼是個行銷大師,知道怎麼掌握節奏,他們手上的武器並沒有全拿出來。這樣看來中國跟美國的AI 差距可能還在加大。
第四,大語言模型最牛的是,它不是填空機,而是能完整地理解這個世界的知識。這次很多人從技術上、從產品體驗上分析Sora,強調它能輸出60 秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規律,實際這些都比較表象,最重要的是Sora 的技術思路完全不一樣。因為這之前我們做影片做圖用的都是Diffusion,你可以把影片看成是多個真實圖片的組合,它並沒有真正掌握這個世界的知識。現在所有的文生圖、文生影片都是在2D 平面上對圖形元素進行操作,並沒有適用物理定律。但Sora 產生的影片裡,它能像人一樣理解坦克是有巨大衝擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況。所以我理解這次OpenAl 利用它的大語言模型優勢,把LLM 和Diffusion 結合起來訓練,讓Sora 實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D 的範圍模擬真實的物理世界。這都是大模型的功勞。這也代表未來的方向。有強勁的大模型做底子,基於對人類語言的理解,對人類知識和世界模型的了解,再疊加很多其他的技術,就可以創造各個領域的超級工具,比如生物醫學蛋白質和基因研究,包括物理在化學、數學的學科研究上,大模型都會發揮作用。這次Sora對物理世界的模擬,至少將會對機器人具身智慧和自動駕駛帶來巨大的影響。原先的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基於對這個世界的理解。例如對方的速度怎麼樣,能否發生碰撞,碰撞嚴重性如何,如果沒有對世界的理解就很難做出一個真正的無人駕駛。
所以這次Sora 只是小試牛刀,它展現的不僅僅是一個視頻製作的能力,它展現的是大模型對真實世界有了理解和模擬之後,會帶來新的成果和突破。
第五,Open Al訓練這個模型應該會閱讀大量影片。大模型加上Diffusion 技術需要對這個世界進行進一步了解,學習樣本就會以影片和攝影機捕捉到的畫面為主。一旦人工智慧接上鏡頭,把所有的電影都看一遍,把YouTube 上和TikTok 的影片都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,而影片傳遞的資訊量又遠超過一幅圖,這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現。