Google版Sora深夜秀肌肉4K影片生成再度狙擊OpenAI
就在剛剛,Google Deepmind 推出了新的視訊模型Veo 2 和Imagen 3。 Google CEO Sundar Pichai 第一時間在X 平台發文介紹了這兩款產品:我們非常榮幸推出Veo 2,這款全新、最先進的視訊模型(具備更強的真實世界物理與運動理解,支援最高4K 分辨率)。
你可以在VideoFX 上加入等候名單。
我們改進後的Imagen 3 車型同樣達到了業界領先的成果,並將於今天在100 多個國家推出,屆時將在ImageFX 平台上線。
根據官方介紹,Veo 2 帶來了多項重要突破:
支援製作高達4K 解析度的視頻
能夠辨識指令中的攝影機控制,例如廣角、第一人稱視角和無人機拍攝
能更真實模擬物理現象和人類表情變化
相比其他视频模型常见的“错误生成”问题(如多余手指或意外物体),Veo 2 显著降低了这类错误的出现频率,大幅提升了输出结果的真实度。
在安全性方面,所有由Veo 2 產生的影片都會嵌入不可見的SynthID 浮水印,以便於識別其AI 產生的屬性。
Google Labs 的影片產生工具VideoFX 已整合了Veo 2 的新功能,同時擴大了使用者存取範圍。
關注AI 第一新媒體,率先取得AI 前沿資訊與洞察
不過,DeepMind 有意控制推廣的速度,並計劃在明年將Veo 2 的功能逐步引入YouTube Shorts 等產品,以在擴展應用範圍的同時確保模型品質和安全性。
在性能評測方面,Veo 2 展現了領先優勢。
在Meta 發布的基準測試資料集MovieGenBench 上,參與者觀看了1003 個提示及其對應的影片。結果顯示,Veo 2 在整體使用者偏好度和指令遵循準確性方面均位居榜首。
測試統一在720p 分辨率下進行,其中Veo 生成8 秒視頻,VideoGen 生成10 秒視頻,其他模型則生成5 秒視頻。評分者觀看了所有影片的完整長度。
注意看,對比測試對像中也出現了國產AI 視訊模型(可靈AI、Minimax)以及最新發布的Sora Turbo。
所有比較均在720p 解析度下進行。 Veo 的影片樣本長度為8 秒,VideoGen 的為10 秒,其他模型的為5 秒。評分者將看到完整影片長度。
尽管 Veo 2 取得了显著进步,但在生成真实、动态或复杂场景的视频时,仍面临着保持场景连贯性的挑战。DeepMind 表示将持续优化这些领域的性能。
同時,Imagen 3 也實現了重大突破。
新版本不僅支援創作多種藝術風格(包括寫實主義、幻想、肖像等),能夠更精確地將文字描述轉化為圖像,以及生成更明亮、構圖更協調的視覺作品。
向左滑動查看更多內容
即日起,Imagen 3 將透過Google Labs 的ImageFX 在全球超過100 個國家推出。
附上體驗地址:
https://labs.google/fx/tools/image-fx/unsupported-country
此外,Google 也推出了名為Whisk 的工具。
此工具在技術層面整合了最新的Imagen 3 模型與Gemini 的視覺理解能力。
Gemini 模型可以自動為影像產生詳細描述,這些描述隨後會作為輸入傳遞給Imagen 3。
使用者可以透過匯入或創作圖像,表達特定主題、場景和風格需求,並將這些元素融合重組,創造數位化產品,例如毛絨玩具、琺瑯別針或貼紙等。
今天DeepMind 在核心技術上的突破,無疑比OpenAI 簡單的功能疊加更有價值,從嵌入SynthID 浮水印到採取漸進式推廣策略,也讓這次更新顯得格外厚重。
真正AI 產品的更新,不僅在於它能做什麼,更在於它如何做,以及為誰做。
來源:應用軟體