真假難辨!谷歌發布最強文生圖大模型Imagen2
谷歌剛剛發布了其最強大的文生圖大模型 Imagen 2,可提供與用戶提示詞緊密結合且一致的高品質、逼真的圖像輸出。它可以透過使用訓練資料的自然分佈來產生更逼真的影像,而不是採用預先編程的風格。
谷歌的增強模型 Imagen 2 是利用谷歌旗艦人工智慧實驗室 Google DeepMind 的技術開發的,該模型在 5 月的科技巨頭 I/O 大會上悄悄推出了預覽版。谷歌聲稱,與第一代 Imagen 相比,它在圖像品質方面「顯著」提高,並引入了新功能,包括渲染文字和 Logo 的能力。
谷歌雲端執行長托馬斯·庫里安(Thomas Kurian)在周二的新聞發布會上表示,“如果你想創建帶有文字疊加的圖像——例如廣告——你可以做到。”
Google生成媒體產品主管 Vishy Tirumalasetty 表示,
“Imagen 2 可以產生……徽章、字母標記和抽象徽標……[並且]能夠將這些徽標覆蓋到產品、服裝、名片和其他表面上。”
由於“新穎的訓練和建模技術”,Imagen 2 還可以理解更具描述性的長格式提示,並對有關圖像中元素的問題提供“詳細答案”。 Google表示,這些技術也增強了 Imagen 2 的多語言理解能力——允許模型將一種語言的提示翻譯成另一種語言的輸出(例如 Logo)。
Imagen 2 利用 SynthID(DeepMind 開發的一種方法)將隱形浮水印應用到其創建的影像上。當然,偵測這些浮水印(Google聲稱這些浮水印能夠適應影像編輯,包括壓縮、濾鏡和色彩調整)需要Google提供的工具,而第三方無法使用該工具。
目前開發人員和Google雲端客戶已經可以體驗 Imagen 2 的強大:
影像逼真程度達到新高度
看下圖,你能一眼猜到是 AI 生成的嗎?
提示詞:一張 32 歲女性在叢林中的照片,她是一位嶄露頭角的自然資源保護主義者; 運動型短捲髮,笑容溫暖
提示詞:深藍色背景上的水母
提示詞:一幅小畫布油畫,顯示案板上的橘子。光線穿過橘色部分,在切菜板的一部分上投射出橘色光。背景中有一塊藍色和白色的布。焦散、反射光、富有表現力的筆觸
對圖像提示詞的理解達到新的高度
文生圖模型學習根據訓練資料集的圖像和文字說明中的詳細資訊產生與使用者提示相符的圖像。但對於每個影像和蚊子說明,這些配對的細節品質和準確性可能會有很大差異。
為了幫助創建更高品質、更準確的圖像,更好地符合用戶的提示,谷歌在Imagen 2 訓練資料集中的圖像說明文字中添加了進一步的描述,幫助Imagen 2 學習不同的文字說明樣式並進行概括,以更好地理解廣泛的用戶提示。
這些增強的圖像-文字說明配對有助於 Imagen 2 更好地理解圖像和文字之間的關係,從而增強對上下文和細微差別的理解。
以下是 Imagen 2 快速理解的範例:
1. AI 生成油畫圖像:
提示詞:「溪水輕柔地流淌,鳥兒重新唱出它們的音符,它們混合的音樂在空中飄蕩。」(菲利斯·惠特利的《晚間讚美詩》)
2. 人工智慧生成水下場景彩繪影像
提示詞:「考慮大海的微妙; 其中最可怕的生物如何在水下滑行,大部分時間是不可見的,並且危險地隱藏在最美麗的蔚藍色調下。」(赫爾曼·梅爾維爾的《白鯨》)
3. 人工智慧生成逼真的歌唱知更鳥圖像
提示詞:「知更鳥從搖曳的常春藤叢中飛到了牆頂上,張開喙,唱起了響亮、可愛的顫音,只是為了炫耀。世界上沒有什麼比知更鳥炫耀時更可愛了——而且它們幾乎總是這樣做。」(弗朗西斯·霍奇森·伯內特的《秘密花園》)
更真實的圖像生成
Imagen 2 的資料集和模型進步在文字轉圖像工具經常難以解決的許多領域提供了改進,包括渲染逼真的手和人臉以及保持圖像免受分散注意力的視覺偽影。
Imagen 2 產生逼真的手和人臉的範例
谷歌根據人類對良好照明、取景、曝光、清晰度等品質的偏好,訓練了專門的影像美學模型。每張圖像都會獲得一個美觀評分,這有助於調節 Imagen 2,使其訓練資料集中的圖像具有更多權重,以符合人類喜歡的品質。該技術提高了 Imagen 2 生成更高品質影像的能力。
AI 使用提示「花」產生的圖像,美學分數較低(左)到較高分數(右)
流體式調理
Imagen 2 以擴散為基礎的技術提供了高度的靈活性,使得控制和調整影像的風格變得更加容易。透過提供參考風格圖像與文字提示相結合,我們可以調節 Imagen 2 以產生遵循相同風格的新圖像。
視覺化顯示 Imagen 2 如何透過在文字提示旁邊使用參考圖像來更輕鬆地控制輸出樣式。
進階修圖功能
Imagen 2 也支援「inpainting」和「outpainting」等影像編輯功能。透過提供參考影像和影像遮罩,使用者可以使用稱為修復的技術直接在原始影像中產生新內容,或透過修復將原始影像擴展到其邊界之外。這項技術計劃在新的一年用於谷歌雲端的 Vertex AI。
Imagen 2 可以透過 inpainting 擴圖功能直接在原始影像中產生新內容。
Imagen 2 可以透過 outpainting 將原始影像擴展到其邊界之外。
參考資料: