Google版Sora深夜秀肌肉4K影片生成再度狙擊OpenAI

就在剛剛，Google Deepmind 推出了新的視訊模型Veo 2 和Imagen 3。 Google CEO Sundar Pichai 第一時間在X 平台發文介紹了這兩款產品：我們非常榮幸推出Veo 2，這款全新、最先進的視訊模型（具備更強的真實世界物理與運動理解，支援最高4K 分辨率）。

你可以在VideoFX 上加入等候名單。

我們改進後的Imagen 3 車型同樣達到了業界領先的成果，並將於今天在100 多個國家推出，屆時將在ImageFX 平台上線。

根據官方介紹，Veo 2 帶來了多項重要突破：

支援製作高達4K 解析度的視頻

能夠辨識指令中的攝影機控制，例如廣角、第一人稱視角和無人機拍攝

能更真實模擬物理現象和人類表情變化

相比其他视频模型常见的“错误生成”问题（如多余手指或意外物体），Veo 2 显著降低了这类错误的出现频率，大幅提升了输出结果的真实度。

在安全性方面，所有由Veo 2 產生的影片都會嵌入不可見的SynthID 浮水印，以便於識別其AI 產生的屬性。

Google Labs 的影片產生工具VideoFX 已整合了Veo 2 的新功能，同時擴大了使用者存取範圍。

關注AI 第一新媒體，率先取得AI 前沿資訊與洞察

不過，DeepMind 有意控制推廣的速度，並計劃在明年將Veo 2 的功能逐步引入YouTube Shorts 等產品，以在擴展應用範圍的同時確保模型品質和安全性。

在性能評測方面，Veo 2 展現了領先優勢。

在Meta 發布的基準測試資料集MovieGenBench 上，參與者觀看了1003 個提示及其對應的影片。結果顯示，Veo 2 在整體使用者偏好度和指令遵循準確性方面均位居榜首。

測試統一在720p 分辨率下進行，其中Veo 生成8 秒視頻，VideoGen 生成10 秒視頻，其他模型則生成5 秒視頻。評分者觀看了所有影片的完整長度。

注意看，對比測試對像中也出現了國產AI 視訊模型（可靈AI、Minimax）以及最新發布的Sora Turbo。

所有比較均在720p 解析度下進行。 Veo 的影片樣本長度為8 秒，VideoGen 的為10 秒，其他模型的為5 秒。評分者將看到完整影片長度。

尽管 Veo 2 取得了显著进步，但在生成真实、动态或复杂场景的视频时，仍面临着保持场景连贯性的挑战。DeepMind 表示将持续优化这些领域的性能。

同時，Imagen 3 也實現了重大突破。

新版本不僅支援創作多種藝術風格（包括寫實主義、幻想、肖像等），能夠更精確地將文字描述轉化為圖像，以及生成更明亮、構圖更協調的視覺作品。

向左滑動查看更多內容

即日起，Imagen 3 將透過Google Labs 的ImageFX 在全球超過100 個國家推出。

附上體驗地址：

https://labs.google/fx/tools/image-fx/unsupported-country

此外，Google 也推出了名為Whisk 的工具。

此工具在技術層面整合了最新的Imagen 3 模型與Gemini 的視覺理解能力。

Gemini 模型可以自動為影像產生詳細描述，這些描述隨後會作為輸入傳遞給Imagen 3。

使用者可以透過匯入或創作圖像，表達特定主題、場景和風格需求，並將這些元素融合重組，創造數位化產品，例如毛絨玩具、琺瑯別針或貼紙等。

今天DeepMind 在核心技術上的突破，無疑比OpenAI 簡單的功能疊加更有價值，從嵌入SynthID 浮水印到採取漸進式推廣策略，也讓這次更新顯得格外厚重。

真正AI 產品的更新，不僅在於它能做什麼，更在於它如何做，以及為誰做。

來源：應用軟體

WONGCW 網誌