Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

Playground v3發布:文生圖參數量上升至240億圖形設計能力超越人類

Playground v3發布:文生圖參數量上升至240億圖形設計能力超越人類

2024-10-07 Comments 0 Comment

Playground Research推出了新一代文字到圖像模型PGv3,具備240億參數量,採用深度融合的大型語言模型,實現了在圖形設計和遵循文字提示指令上甚至超越了人類設計師,同時支援精確的RGB顏色控制和多語言識別。

自去年以來,文字到圖像生成模型取得了巨大進展,模型的架構從傳統的基於UNet逐漸轉變為基於Transformer的模型。

Playground Research最近發布了一篇論文,詳細介紹了團隊最新的、基於DiT的擴散模型Playground v3(簡稱PGv3),將模型參數量擴展到240億,在多個測試基準上達到了最先進的性能,更擅長圖形設計。

論文連結:https://arxiv.org/abs/2409.10695

資料連結:https://huggingface.co/datasets/playgroundai/CapsBench

與傳統依賴預訓練語言模型如T5或CLIP文字編碼器的文字到影像生成模型不同,PGv3完全整合了大型語言模型(LLMs),基於全新的深度融合(Deep-Fusion)架構,利用僅解碼器(decoder-only)大型語言模型的知識,來進行文本到圖像生成任務。

此外,為了提高影像描述的質量,研究人員開發了一個內部描述產生器(in-house captioner),能夠產生不同詳細程度的描述,豐富了文字結構的多樣性,還引入了一個新的基準CapsBench來評估詳細的圖像描述性能。

實驗結果表明,PGv3在文字提示遵循、複雜推理和文字渲染準確率方面表現出色;使用者偏好研究表明,PGv3模型在常見的設計應用中,如表情符號(stickers)、海報和logo設計,具有超越人類的圖形設計能力,也能夠精確控制RGB顏色和多語言理解。

PGv3模型架構

Playground v3(PGv3)是一個潛擴散模型(LDM),使用EDM公式進行訓練。像DALL-E 3、Imagen 2和Stable Diffusion 3等其他模型一樣,PGv3旨在執行文字到圖像(t2i)生成任務。

PGv3完全整合了一個大型語言模型(Llama3-8B),以增強其在提示理解和遵循方面的能力。

文字編碼器

Transformer模型中的每層捕捉到的表示不同,包含不同層級的單字級和句子級訊息,標準做法是使用T5編碼器或CLIP文字編碼器的最後一層輸出,或是結合倒數第二層的輸出,不過,研究人員發現選擇用於調節文字轉圖像模型的最佳層非常麻煩,特別是使用解碼器風格的大型語言模型時,具有更複雜的內部表示。

研究人員認為,資訊流透過LLM每層的連續性是其生成能力的關鍵,而LLM中的知識則橫跨了所有層,而不是被某一層的輸出所封裝,所以PGv3在設計時,複製了LLM的所有Transformer區塊,可以從LLM的每個對應層中取得隱藏嵌入輸出。

這種方法可以充分利用LLM完整的「思考過程」,能夠引導模型​​模仿LLM的推理和生成過程,所以在生成圖像時,可以實現更好的提示遵循和一致性能力。

模型結構

PGv3採用了DiT風格的模型結構,影像模型中的每個Transformer區塊都設定得與語言模型(Llama3-8B)中的對應區塊相同,僅包含一個注意力層和一個前饋層,參數也相同,如隱藏維度大小、注意力頭的數量和注意力頭的維度,並且只訓練了圖像模型部分。

在擴散採樣過程中,語言模型部分只需要運行一次,就可以產生所有中間隱藏嵌入。

與大多數傳統的基於CNN的擴散模型不同,Transformer模型將圖像特徵的自註意力與圖像和文字特徵之間的交叉注意力分開,然後進行聯合注意力操作,可以從圖像和文字值的組合池中提取相關特徵,並且能減少計算成本和推理時間,以下還有一些對效能提升有用的操作:

1. Transformer塊之間的U-Net跳躍連接。

2. 中間層的token下採樣,在32層中,在中間層將圖像鍵和值的序列長度減少了四倍,使整個網絡類似於只有一個下採樣的傳統卷積U-Net,略微加快了訓練和推理時間,而且沒有表現下降。

3. 位置嵌入,與llama3中的旋轉位置嵌入(RoPE)相同,由於影像是二維的特徵,所以研究人員探索了2D版本的RoPE:

「插值-PE」(interpolating-PE)方法不管序列長度如何,保持起始和結束位置ID固定後,在中間插值位置ID,不過該方法在訓練分辨率上嚴重過擬合,並且無法泛化到未見過的縱橫比。

相較之下,「擴展-PE」(expand-PE)方法按序列長度成比例增加位置ID,不使用任何技巧或歸一化,性能表現良好,沒有顯示出分辨率過擬合的跡象。

新的VAE

潛擴散模型(LDM)的變分自編碼器(VAE),對於確定模型的細粒度影像品質上限非常重要。

研究人員將VAE的潛通道數從4增加到16,增強了合成細節的能力,例如較小的面部和文字;除了在256×256分辨率下進行訓練外,還擴展到512×512分辨率,進一步提高了重建性能。

CapsBench描述基準

影像描述評估是一個複雜的問題,目前的評估指標主要分為兩類:

1. 基於參考的指標,如BLEU、CIDEr、METEOR、SPICE,使用一個真實描述或一組描述來計算相似度作為品質度量,模型得分受到參考格式的限制;

2. 無參考指標,如CLIPScore、InfoMetIC、TIGEr,使用參考圖像的語義向量或圖像的多個區域來計算所提出描述的相似度指標,但缺點是,對於密集圖像和長而詳細的描述,語義向量不具備代表性,因為包含的概念太多。

一種新型的評估方法是基於問題的指標,從描述中產生問題,並使用這些問題評估所提出的描述,有助於全面評估文字到圖像模型。

受到DSG和DPG-bench的啟發,研究人員提出了一種反向的圖像描述評估方法,在17個圖像類別中產生“是-否”問答對:通用、圖像類型、文本、顏色、位置、關係、相對位置、實體、實體大小、實體形狀、計數、情緒、模糊、影像偽影、專有名詞(世界知識)、調色板和色彩分級。

在評估過程中,使用語言模型僅基於候選描述回答問題,答案選項為「是」、「否」和「不適用」。

CapsBench包含200張影像和2471個問題,平均每張影像12個問題,涵蓋電影場景、卡通場景、電影海報、邀請函、廣告、休閒攝影、街頭攝影、風景攝影和室內攝影。

實驗結果

研究人員對比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),當以縮圖形式查看時,3個模型的圖像看起來相似,定性差異很小。

當放大檢查細節和紋理時,就能看出明顯區別:Flux-pro生成的皮膚紋理過於平滑,類似於3D渲染的效果,不夠真實;Ideogram-2提供了更真實的皮膚紋理,但在遵循提示詞方面表現不好,提示詞很長的情況下,就會失去關鍵細節。

相較之下,PGv3在遵循提示和生成真實影像方面都表現出色,也展現出明顯優於其他模型的電影質感。

指令遵循

彩色文字代表模型未能捕捉到的具體細節,可以看到PGv3始終能夠遵循細節。隨著測試提示變長,並包含更多詳細資訊時,PGv3的優勢變得尤為明顯,研究人員將這種性能提升歸功於我們集成了大型語言模型(LLM)的模型結構和先進的視覺-語言模型(VLM)影像描述系統。

文字渲染

模型能夠產生各種類別的圖像,包括海報、logo、表情包、書籍封面和演示幻燈片,PGv3還能夠復現帶有定製文本的表情包,並憑藉其強大的提示遵循和文本渲染能力,創造出具有無限角色和構圖的全新表情包。

RGB顏色控制

PGv3在生成內容中實現了異常精細的顏色控制,超越了標準調色板,憑藉其強大的提示遵循能力和專業訓練,PGv3使用戶能夠使用精確的RGB值精確控製圖像中每個對像或區域的顏色,非常適合需要精確顏色匹配的專業設計場景。

多語言能力

由於語言模型天生能夠理解多種語言,並構建出良好的相關詞表示,PGv3能夠自然地解釋各種語言的提示,並且多語言能力僅通過少量的多語言文本和圖像對數據集(數萬張圖像)就足夠了。

參考資料:

https://arxiv.org/abs/2409.10695

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
蘋果或將放棄一年一更新的產品發表策略
NEXT
虛幻5引擎宣傳片被玩家揪出多元化高階主管玩家:來個人救救《光環》吧

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 10 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 9 月   11 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 全球首艘風帆助推阿芙拉型成品油輪命名:日均節約燃油14.5噸 2025-06-12
  • 廣汽首款量產飛行汽車開啟預定:售價168萬元封頂比小鵬便宜39萬 2025-06-12
  • 外媒銳評《NS2 秘密展》:替你們玩過了啥也不是別買! 2025-06-12
  • 第一批升級iOS 26的iPhone 15系列用戶遇到Bug:手機黑屏且無法充電 2025-06-12
  • 《瑪利歐賽車》被發現包含隱藏模式支援多台主機區域網路連線 2025-06-12
  • 史丹佛重磅研究:碳捕獲成本高再生能源才是未來 2025-06-12
  • 暴龍家族秘史:科學家找到演化鏈上的關鍵“拼圖” 2025-06-12
  • 蔡崇信:看到與DeepSeek差距後阿里員工春節期間加班加點追趕 2025-06-12
  • 黃仁勳稱英偉達第一枚GPU在法國生產馬克宏回應稱要讓法國再次領先 2025-06-12
  • 力箭二號一級動力系統試車成功首飛發射輕舟貨運太空船 2025-06-12

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 華為12000mAh 40W超級快充移動電源CP12S拆解
  • 研究揭示嗅覺記憶比其他感官記憶更強的原因
  • 一汽豐田開卷電動車全新bZ5開啟預售:入門版價格不超13萬
  • Windows 11 24H2 六月例行累積更新出現相容性問題微軟撤回更新
  • Mondoze : 馬來西亞伺服器/ AS152742/純淨 IP/雙ISP住宅伺服器/$8.33/月/2C/2G記憶體/60G/100M
  • Office Tab Enterprise 13.10 x86/x64(含:註冊機序列號)
  • 華為麒麟9600 CPU現真身神秘數字「2035」再次出現
  • 韓國遊戲公司Nexon出售價格或可高達150億美元
  • 資深業內人士分析Switch 2與PS5 Pro哪個比較值得買

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.