Stability AI推出Stable Diffusion 3 提示文字理解更好、影像品質更強

著名大模型開源平台stability.ai在官網推出了－Stable Diffusion 3。此版本與Stable Diffusion 2相比，在文字語意理解、色彩飽和度、影像構圖、解析度、型態、質感、對比等方面大幅增強，可對標閉源模型Midjourney。

Stable Diffusion 3的參數在8億——80億之間，也就是說Stable Diffusion 3可能是專為行動裝置開發的，AI算力消耗將更低，但推理速度更快。

目前，Stable Diffusion 3支援申請使用，未來將擴大測試範圍。

stability.ai沒有過多的介紹Stable Diffusion 3的技術內容，但指出其核心架構使用了Transformer和Flow FMatching（簡稱「FM」）。

Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基於該架構開發的。

而FM是Meta AI和魏茨曼科學研究所在2022年10月發布的，一種全新高效建模、訓練技術概念。

Flow Matching簡單介紹

目前，許多文生圖模型使用的是CNF（連續正規化流動）訓練方法，主要使用常微分方程式對流動進行建模，實現從一種已知分佈到目標分佈的平滑映射。

但由於訓練過程需要進行大量的微分方程模擬，會導致算力成本高、模型設計複雜、可解釋性差等缺點。

FM則是放棄微分方程的直接模擬,而是透過回歸固定條件機率軌跡來實現無模擬訓練。研究人員設計了條件機率分佈與向量場的概念,利用邊緣分佈的結合可以建立總體目標機率軌跡與向量場,從而消除了模擬過程對梯度計算的影響。

1）條件機率路徑建構： FM需要給出一個目標機率路徑,該路徑從簡單分佈演變到逼近資料分佈。然後利用條件機率路徑建構了目標路徑,這樣每個樣本都有一個對應的條件路徑。

2）變換層：構成FM的基本單元，每個變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉，從而允許從目標分佈反推到原始分佈。

3）耦合層：將輸入分成兩部分，對其中一部分應用變換，而變換函數可以是任意的神經網絡，其參數由另一部分決定，保證了變換的可逆性。

目前，FM技術已在影像生成與超解析度、影像理解、影像修復與填充、條件影像生成、影像風格遷移與合成、視訊處理等領域廣泛應用。

Stable Diffusion 3案例展示

本次的發布頁面也是由Stable Diffusion 3生成的，提示詞：史詩般的動漫藝術風格，一位巫師站在夜間的山頂上，向黑暗的天空施放咒語，上面寫著由彩色能量生成的“Stable Diffusion 3”文字

教室桌上有一個紅蘋果，電影風格，背景的黑板上用粉筆寫著“要么做大，要么回家”

一名太空人騎著一隻穿著蓬蓬裙的豬，撐著一把粉紅色的傘，豬旁邊的地上有一隻戴著高帽的知更鳥，角落裡寫著”Stable Diffusion”的字樣。

一隻變色龍，黑色背景，攝影風格。

一輛跑車的夜間照片，側面寫有「SD3」字樣，汽車在賽道上高速行駛，巨大的路標上寫著「更快」的文字。

波浪衝擊蘇格蘭燈塔的魚眼鏡頭照片，黑色波浪。

WONGCW 網誌