Google發布Veo 2：Imagen 3，Sora和DALL-E不香了

2024-12-17 Comments 0 Comment

新的一周，OpenAI技術直播迎來了第8天。今日重點在於ChatGPT Search，從領銜登場的熟面孔、公司首席產品長Kevin Weil 來看，這次發布仍以優化和完善產品功能為主。同時，Google卻在發布Gemini 2.0 Flash 後繼續在模型上發力，一口氣推出新一代視頻生成模型Veo 2 和圖片生成模型Imagen 3，還上線了一個可玩性很高的“圖生圖”實驗項目Whisk。

即便已近年尾，OpenAI和Google這對老冤家依然打得火熱。而從社區反應來看，今天似乎又成了一個「Google主場日」。

ChatGPT 搜尋整合地圖，全球免費開放

OpenAI今天主要帶來三項AI搜尋更新：

1. 搜尋功能優化

ChatGPT 根據用戶回饋全面提升了搜尋體驗，包括提升搜尋速度、行動裝置增強和引入新的地圖功能等。

• 視覺效果更豐富：

搜尋結果現在支援更豐富的視覺元素和結構化資訊展示。例如搜尋”舊金山週末有趣的活動”時，系統會同時展示活動圖片、來源連結及詳細信息，讓結果更加直觀。用戶還能直接在搜尋結果中觀看影片內容，不過這些並不稀奇，在Perplexity中早已實現過了。

• 行動端新增地圖功能：

新增「地圖」檢視模式，支援用戶透過ChatGPT應用程式直接與地圖交互，也是此次更新的最大亮點。以搜尋Mission 區墨西哥餐廳為例，點擊地圖上的圖示即可查看餐廳圖片、營業時間、露台資訊及導航路徑等詳情。

• 預設搜尋引擎的快速導航：將ChatGPT設為瀏覽器預設搜尋引擎後，無需開啟網站，透過在網址列直接輸入查詢內容，即可快速呼叫ChatGPT並取得建議連結。

2. 搜尋功能整合進階語音模式

搜尋功能已整合至進階語音模式中，支援邊聊天邊搜尋的自然互動體驗。

3. 全球免費開放

最後團隊宣布，GPT搜尋功能現已向所有登入的免費用戶開放。用戶只需登入帳戶即可在全球範圍內的各種平台上無需付費，享受這項增強搜尋體驗。

Veo 2與Imagen 3齊發，加推創意工具Whisk

來到Google這邊，直接給影片和影像產生技術來了個大升級，推出三款重磅產品：

全新影片生成模型Veo 2、升級版影像生成模型Imagen 3，以及創意實驗專案Whisk。

Veo 2重塑AI視訊生成：品質與控制力雙突破

Google最新發布的Veo 2在AI影片產生領域取得突破性進展。無論真實感、運動表現能力，或是鏡頭控制都達到當之無愧的SOTA水準。不少人在看過驚豔的官方範例後表示，SORA瞬間就不香了。

核心亮點有：

1. 高品質與真實感

Veo 2在細節呈現、視覺風格和減少瑕疵方面表現出色，能夠生成高達4K分辨率的視頻，且時長可達數分鐘，適用於廣泛的場景和風格。

2. 物理與人類動態理解

Veo 2对真实世界物理原理以及人类动作与表情的细微之处有着深刻理解，显著提升了视频的真实感与自然度。

例如範例中這位穿著暗黃色防護衣的科學家。在冷白色實驗室燈光下，她神情焦慮地調試顯微鏡，擔憂的神情清晰可見，渲染出沉重壓力的氛圍。

以及下方，楓糖漿緩緩淋在鬆軟的煎餅上，培根油脂細膩，咖啡倒入玻璃杯中衝出層次豐富的泡沫，都展示出媲美物理世界，真實誘人的畫面細節。

3. 精確的鏡頭控制

Veo 2 深諳電影語言，支持豐富的指令細節：

• 指定風格與鏡頭（如「18mm鏡頭」產生廣角效果）

• 提供電影效果（如「淺景深」對焦主體，虛化背景）

• 精確的動態鏡頭控制，如低角度追蹤鏡頭、特寫鏡頭等。例如鏡頭跟著下在馬路快速漂移的車子：

4. 減少「幻覺」現象

相較於其他視訊生成模型，Veo 2在生成過程中較少出現多餘的細節或「額外的手指」這類意外物體，確保輸出結果更加真實可靠。

基準表現：

在實際應用評測中，透過Meta發布的MovieGenBench基準資料集的1003組提示詞測試，Veo 2在人工評估中全面超越其他領先的影片生成模型。特別是在以下兩個關鍵指標上表現突出：

• 整體偏好度評分最高

• 提示詞執行準確度領先

現有限制：

儘管表現優異，Veo 2在處理高度動態或複雜場景時仍面臨挑戰，特別是在整個影片中保持完全一致性方面還有提升空間。 Google團隊表示將持續優化效能，逐步克服這些難題。

所有Veo 2產生的影片均包含SynthID不可見浮水印，用於標示其為AI生成，減少誤導和誤用風險。

目前，Veo 2的新功能已在Google Labs影片產生工具VideoFX開放，用戶可前往Google Labs申請加入候補名單。未來，Veo 2計畫進一步整合到YouTube Shorts等產品中，持續推動AI影片生成技術的發展。

Imagen 3：極致細節與風格多樣性的影像生成革新

升级后的 Imagen 3 在图像质量、细节呈现、风格多样性和文字渲染方面取得了显著提升，全面超越前代模型和其他领先竞品，成为文本到图像生成领域的新标杆。

核心技術突破：

1. 高清細節的優質影像

Imagen 3 產生的影像具備豐富的細節、更明亮自然的光影效果和更專業的構圖水平，有效捕捉如皮膚質感、手部細微皺紋、編織玩偶針線等複雜紋理與微小細節，同時減少視覺瑕疵，呈現更加自然精緻的高保真體驗。

手部皮膚和陶土質感

動物皮毛紋理細節

2. 風格表現力增強

新版本在藝術風格的駕馭上實現跨越式發展，涵蓋範圍廣泛，能滿足不同創作者的需求：

• 寫實風格：如風景攝影、人物肖像。

人物肖像

空中的千紙鶴

• 各種藝術風格：印象派油畫、動漫、抽象畫、黏土動畫等。

黏土動畫

動漫風格

油畫風格

3. 提示詞理解深化

Imagen 3對自然語言提示的理解能力大幅提升，無需複雜的提示詞工程即可準確執行使用者意圖。模型透過更豐富的訓練資料標註，能準確理解長提示詞中的複雜細節，並準確呈現指定的鏡頭角度、構圖等元素。

4. 強大的文字渲染能力

AI作图此前的一大难点就是乱码和错字。如今Imagen 3 显著增强了文本渲染的准确性，也为风格化卡片、海报等应用场景提供了更多可能。

基準表現：

在嚴格的人工評估中，Imagen 3在視覺品質、提示詞執行準確度和使用者偏好度等關鍵指標上均創造新高。

從今天起，Imagen 3 將透過Google Labs 的影像產生工具ImageFX 在全球100多個國家上線。使用者可存取ImageFX親身體驗。

可以說，Imagen 3 以其卓越的細節呈現、風格多樣性和強大的提示詞理解能力，為創作者提供了前所未有的高品質圖像生成工具，重新定義了AI在藝術、設計與創意領域的應用潛力。

Whisk：影像驅動的AI創意工具

除了以上兩個主要模型更新，Google Labs 還推出了一個趣味十足的實驗項目Whisk。

這款工具巧妙結合了Gemini 和Imagen 3 技術，為創作者提供透過影像提示產生創意內容的新奇體驗。

有別於傳統需要輸入冗長文字提示的方式，使用者只需拖曳上傳圖片，即可分別指定主題、場景和風格，系統會自動完成元素的創意重組。還能依據興趣選擇樣式，包括個人化的數位藝術品、徽章、貼紙、玩具等。

在技術實現上，Gemini 模型會先對輸入的圖像進行智慧分析，產生詳細的描述訊息，並將這些描述輸入Google 最新的圖像生成模型Imagen 3，從而創作出全新的作品。

值得注意的是，Whisk 並非簡單複製原圖，而是著重捕捉影像的核心特徵進行創意重塑。雖然生成結果可能與原圖有所不同（如人物的身高、髮型或細節特徵），但用戶可以隨時查看並編輯生成的提示詞，靈活調整創意方向。

由於看起來實在好玩，我們也迫不及待試了試，讓水獺做主角，宮崎駿風格的海邊壁紙做背景，輸入「角色抱著皮球玩具」的補充提示，選擇徽章樣式。

生成結果如下：

Google 將Whisk 定位為一款面向快速視覺探索的創意工具，而非傳統的影像編輯器。在早期測試中，藝術家與創意工作者普遍認為這種全新的創作方式充滿趣味性與創新力。

目前，Whisk已在美國市場開放測試，手癢的朋友可以馬上去labs.google/whisk體驗了。這也標誌著Google在生成式AI創意工具探索上邁出的重要一步。

總結

在OpenAI今天的搜尋功能直播中，雖然地圖功能的加入收穫了不少好評，但整體內容還是缺乏令人眼前一亮的新意。

相較之下，Google憑藉Veo 2、Imagen 3 以及創意工具Whisk 的強勢推出，佔盡主角光環。也再次彰顯了其在生成式AI領域的強大技術實力。

從高品質的影片和影像生成到影像提示驅動的創意混合，Google透過科技創新為創作者提供了更有效率、更靈活的工具，讓人不得不服。

連續發布的OpenAI有些後勁不足，不過，官方預告明天OpenAI將迎來一場mini Dev Day，期待會帶來真正的驚喜。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

Google發布Veo 2：Imagen 3，Sora和DALL-E不香了

2024-12-17 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆