OpenAI被偷家,Google Veo 2反超Sora
影片生成領先OpenAI 了?今天是個好日子,至少Google這麼想。幾個小時前,該公司一鍵三連,一口氣發布了兩款視覺生成模型和一個工具:
- Veo 2:影片生成模型,可使用文字或圖像prompt 產生高真實感、高品質的影片;
- Imagen 3:文生圖模型,可更忠實地遵從提示詞,實現更豐富的細節和紋理渲染;
- Whisk:圖生圖工具,以Imagen 3 與Gemini 的視覺理解與描述能力打造,能讓使用者更方便調整影像的場景、風格和物件。
其中,Veo 2 可說是直接引爆了整個社群網路。從早期用戶發布的生成結果以及回饋來看,Veo 2 的生成品質明顯超過了目前最佳的Sora 等模型。一問世便是當世第一,似乎完全可以囂張地喊一聲:“還有誰?”
Google CEO Sundar Pichai 介紹Veo 2 的推文
據介紹,Veo 2 可以創建2 分鐘以上長度的4k 分辨率視頻,也能理解提示詞中的相機控制指令(例如廣角鏡頭、POV 和無人機鏡頭),還能重建出符合真實世界的物理交互和人臉表情。
但也必須指出,目前這只是一個理論上的優勢。在Google的實驗性影片製作工具VideoFX 中,Veo 2 目前只提供解析度上限為720p、長度8 秒的影片產生服務。 (而目前的Sora 可以製作高達1080p、20 秒長的影片。)
儘管如此,Veo 2 現有的表現已經足夠驚艷了其表現是如此之好,以至於一心推介自家Grok 的馬斯克也跑來讚美了一句。
為了佐證Veo 2 確實優秀,Google還做了一個基於人類評估者的對比評估,簡單來說就是讓人類評估者看不同模型基於同一提示詞生成的視頻,然後判斷自己更喜歡哪一個視頻。他們比較了Meta Movie Gen、可靈1.5、Minimax 和Sora Turbo。參與者觀看了1003 則提示詞及對應影片。
在整體偏好上,Veo 2 的優勢非常明顯,被另一個對比模型勝過的機率不超過33%。
而在指令遵從度上,Veo 2 的表現依舊強勢。
令人意外的反倒是Sora Turbo,其整體偏好和指令遵從表現是這幾個模型裡面最糟糕的。 Sora 要想“挽回面子”,可能還要看以後的滿血版了。
Veo 2 表現驚艷
話不多說,看看Veo 2 的表現,我們或許就能理解為什麼它在大眾評審中能夠壓倒性地戰勝之前的明星視頻生成模型。
首先是對物理世界的理解力大大提高。如果不說是AI 生成的,水下的波紋、光影,狗狗潛水時的動作協調性,都讓人感覺如此真實,彷彿眼前的一切都是手持相機拍出來的,簡直分不出來。
雖然儀錶板上的字不是完美,但我們可以看到,方向盤向左轉的時候,整體畫面也有一個左移,之後鏡頭向上從車窗搖到街道。
要做到這種和主畫面保持強一致性的搖鏡頭,其實非常難,每個細節都需要精確控制,確保鏡頭移動時畫面中的物體位置和運動協調一致。
只有提升對真實世界物理運動規律的理解,才能做到這一點,而Veo 2 在這方面表現得特別出色。
除此之外,Veo 2 的另一個亮點就是它產生的人類表情更加真實。
拿相似的prompt 去測試其他模型,想實現這種自然又細膩的陶醉微表情,不失真、不鬼畜,試過才知道有多難。
還有,這畫面簡直就像是從紀錄片裡截取的一幕。鏡頭裡,一個養蜂的男人在蜂群中忙碌,Veo 2 在生成這一場景時,真的是突破了不少難關。
蜜蜂群體飛行不僅要表現出自然的協調感,還得和背景、光影無縫對接,避免卡頓或不自然的分佈。但Veo 2 把這些複雜的細節都處理得恰到好處,蜂群飛舞的每一刻都像是活生生的,「AI 味」已經很淡了。
DeepMind 表示,雖然視訊模型經常出現“幻覺”,展示不必要的細節(例如多餘的手指或額外的物體),但Veo 2 產生這些細節的頻率較低,模型的輸出更加逼真。當然,作為一款SOTA 影片產生模型,光能產生擬真影片可不夠。從官方以及網友分享的生成結果來看,Veo 2 在生成幻想和動畫內容方面的表現也同樣非常出色。提示詞:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 來自X @hhm
提示詞:a sitcom tv show about potatoes,來自Google研究科學家@babaeizadeh
Veo 2 也讓創作者可以輕鬆實現以前需要複雜後期才能完成的視覺效果。例如,它可以讓這個運動的立方體穩定地切換材質,這個畫面讓人來做,看起來就很難,換AI 來做,其實一點也沒變簡單。
Veo 2不僅要解決即時追蹤的問題,確保在物體快速移動時也能精準捕捉位置和形態,只需Prompt 就能置換材質。最厲害的是,它能保證在多次連續變換過程中畫面始終流暢自然,不會出現抖動或錯位。
Veo 2 的功能已加入Google Labs 影片產生工具VideoFX 中,並擴大了可存取的使用者數量。 Google表示,計劃明年將Veo 2 擴展到YouTube Shorts 和其他產品。
提示詞:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,來自Google研究科學家@RubenEVillegas
不過Veo 2 現在還未正式開放,需要填表排隊,等待正式上線。
- 排隊連結:https://labs.google/fx/tools/video-fx
OpenAI 連開直播12 天,雖然賺足了流量,但從開播至今乾貨越來越少,可謂噱頭大於實質。
而之前Google一直被OpenAI 狙擊,這次終於迎頭反擊。
雪上加霜的是,OpenAI Sora 的專案負責人Tim Brooks 也在兩個月前選擇了跳槽到DeepMind。
以目前雙方技術迭代的速度和品質來看,或許就像網友們所預測的:「Google明年就會把OpenAI 甩得連廢氣都吃不上了」。
參考內容:
https://blog.google/technology/google-labs/video-image- Generation-update-december-2024/