Sora證明馬斯克的是對的但特斯拉和人類可能都輸了
Sora 推出,馬斯克可能是心情最複雜的一個。不僅因為其本人與OpenAI 早年的糾葛,更因為Sora 實現的其實是特斯拉早幾年間一直在探索的方向。2 月18 日,馬斯克在科技主播@Dr.KnowItAll 一條主題為’OpenAI 的重磅炸彈證實了特斯拉的理論’的視頻下留言,稱’特斯拉已經能夠用精確物理原理製作真實世界影片大約一年了’。
隨後他在X 上轉發了一條2023 年的視頻,內容是特斯拉自動駕駛總監Ashok Elluswamy 向外界介紹特斯拉如何用AI 模擬真實世界駕駛。影片中,AI 同時生成了七個不同角度的駕駛視頻,同時只需要輸入’直行’或’變換車道’這樣的指令,就能讓這七路視頻同步變化。
當然,這並不意味著特斯拉早在一年前就掌握了Sora 的技術,畢竟特斯拉的生成技術只用於模擬車輛行駛,而Sora 能夠處理的環境、場景、Prompt、物理規律等信息更加複雜,二者在難度上不可同日而語。
但特斯拉AI 和Sora 訓練的思路是一致的:並不是訓練AI 如何生成視頻,而是訓練AI 理解和生成一個真實的場景或世界,視頻只是從某一個視角觀察這個場景的一段時空。這是兩家在現有業務上完全不同的公司,以彼此不同的方法來感知真實世界,而他們共同希望通往的,都是AGI(通用人工智慧),甚至更具體一些,就是具身智能和智能體。
理解這個觀點的核心,是理解OpenAI 為Sora 賦予的使命,並不只是替代視頻生成的創作者,而是將視頻生成作為幫助AI 理解真實世界的’模擬器’。如果說特斯拉數以百萬計的車輛仍然需要用’肉身’感受這個世界,那麼Sora 則是單純依靠數據的輸入,建立起對世界的認知。
OpenAI 官網上,關於Sora 的這篇研究論文名為《把影片生成模型當作世界模擬器》。請注意’世界模擬器’(world simulators)這個關鍵字,它是比生成視頻更關鍵的核心所在。
其實,早在特斯拉發表FSD V12 的時候,這家以汽車為主要消費產品的人工智慧公司,就已經展現了類似的能力。
如何理解呢?首先,在FSD V12 上,工程師刪除了超過30 萬行定義駕駛規則的代碼,系統將從被’投餵’的駕駛視頻中,學習如何應對真實的駕駛場景,而不是嚮過往那樣,按照寫好的規則,在某個特定場景下執行某一個具體的指令。
當然,和作為’生成式模型’的Sora 不同,FSD 的目標是實現自動駕駛,所以它並不需要真正產生一個特定的影片。你可以想像成一個人(或智能體)正在進行’防禦性駕駛’,基於過往經驗,可以對周圍環境中交通參與者的下一步移動趨勢做出判斷。這個判斷存在在腦中就行了,不需要真正把它畫在紙上。因此,特斯拉的FSD 也不需要把對未來的想像,生成為一個真實視頻,並呈現在車輛的某一個螢幕上。
所以,現在有OpenAI 和特斯拉兩家完全不同的公司,用截然不同的方式和路徑,實現’透過視頻生成,讓AI 理解物理世界’這個相同的目標。
簡單了解Sora 的運作邏輯:OpenAI 表示,Sora 結合了Transformer 和Diffusion 兩個過去幾年最重要的模型。ChatGPT、Gemini、LLaMA 等語言模式都是基於Transformer 模型,它對詞語進行標記,並產生下一個單字;Diffusion 模型則是’文生圖’的代表。
如果從『理解世界』的角度來檢視Sora,那麼某一幀影像的畫質、畫面關係絕不是模型品質高低的評判標準,甚至官網釋出的60 秒一鏡到底影片也不是最核心的部分。重要的是這個生成的影片可以被剪輯——在不同的機位下,無論是廣角、中景、近景、特寫,影片中人物和背景的關係都保持著高度的’一致性’。這才是Sora 遙遙領先並接近真實的地方。
這一點和特斯拉在FSD 上採取’純視覺’方案可以結合理解。簡單來說,99% 的車企或智駕團隊都會在車輛上保留雷射雷達,透過雷射光束的發射和接收,輔助計算周圍物體和車輛間的距離關係。但馬斯克不僅刪除了30 萬行程式碼,還移除了雷達,只依靠高清攝影機擷取和神經網路學習來判斷距離關係。
無論是對特斯拉,還是對OpenAI,這都是巨大的挑戰。畢竟輸入的畫面是2D 的,但輸出的結果(無論是駕駛指令還是影片)都需要基於對3D 世界的深刻理解。
規模和品質是訓練模型的核心。特斯拉的數據來自真實道路上,搭載了感測器的車輛;而OpenAI 的大量數據,從目前的公開資訊來看,來自網路。在品質的維度,在《馬斯克傳》裡,作者艾薩克森寫道特斯拉通過和Uber 合作,獲取’五星司機’的素材訓練FSD;而從規模出發,奧特曼最近希望籌集萬億規模的資金,就是重註算力和規模的具體表現。
最後,回到一開始的問題,為什麼我們會認為Sora 和FSD v12 是相似的?Sora 和OpenAI 未來的想像空間又是什麼呢?它們和AGI 又有什麼關係?
在馬斯克看來,當人工智慧可以真正解決一個問題(物理、數學、化學等等)的時候,AGI 就來了。不過還有另外一個理解維度,那就是具身智能。畢竟現實世界裡,並不是只有數學公式和文字規則,擁有一定的智商的小貓小狗也可以依靠運動真實地和物理世界進行互動。
這點對於過去只能輸入二維資訊的AI 來說很難做到。這也是為什麼馬斯克看到Sora 後在X 上評價是’GG Humans’,在他看來Sora 今天做到的,已經打破了過去的次元壁,而能理解真實世界並繼續學習,AI 也就有了更進一步影響真實世界的能力。
而就像特斯拉把這種生成能力用於訓練車輛,Sora 的價值也不僅僅是生成一個難以讓人區分真假的視頻,用作影視創作者的生產力工具(儘管這是一個非常困難且剛需的場景)。就像週鴻禕所說,’Sora 只是小試牛刀,它展現的不僅僅是一個視頻製作的能力,而是大模型對真實世界有了理解和模擬之後,會帶來新的成果和突破。’