Stability AI推出Stable Diffusion 3 提示文字理解更好、影像品質更強
著名大模型開源平台stability.ai在官網推出了-Stable Diffusion 3。此版本與Stable Diffusion 2相比,在文字語意理解、色彩飽和度、影像構圖、解析度、型態、質感、對比等方面大幅增強,可對標閉源模型Midjourney。
Stable Diffusion 3的參數在8億——80億之間,也就是說Stable Diffusion 3可能是專為行動裝置開發的,AI算力消耗將更低,但推理速度更快。
目前,Stable Diffusion 3支援申請使用,未來將擴大測試範圍。
申請地址:https://stability.ai/stablediffusion3
stability.ai沒有過多的介紹Stable Diffusion 3的技術內容,但指出其核心架構使用了Transformer和Flow FMatching(簡稱「FM」)。
Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基於該架構開發的。
而FM是Meta AI和魏茨曼科學研究所在2022年10月發布的,一種全新高效建模、訓練技術概念。
Flow Matching論文網址:https://arxiv.org/abs/2210.02747
Flow Matching簡單介紹
目前,許多文生圖模型使用的是CNF(連續正規化流動)訓練方法,主要使用常微分方程式對流動進行建模,實現從一種已知分佈到目標分佈的平滑映射。
但由於訓練過程需要進行大量的微分方程模擬,會導致算力成本高、模型設計複雜、可解釋性差等缺點。
FM則是放棄微分方程的直接模擬,而是透過回歸固定條件機率軌跡來實現無模擬訓練。研究人員設計了條件機率分佈與向量場的概念,利用邊緣分佈的結合可以建立總體目標機率軌跡與向量場,從而消除了模擬過程對梯度計算的影響。
1)條件機率路徑建構: FM需要給出一個目標機率路徑,該路徑從簡單分佈演變到逼近資料分佈。然後利用條件機率路徑建構了目標路徑,這樣每個樣本都有一個對應的條件路徑。
2)變換層:構成FM的基本單元,每個變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉,從而允許從目標分佈反推到原始分佈。
3)耦合層:將輸入分成兩部分,對其中一部分應用變換,而變換函數可以是任意的神經網絡,其參數由另一部分決定,保證了變換的可逆性。
目前,FM技術已在影像生成與超解析度、影像理解、影像修復與填充、條件影像生成、影像風格遷移與合成、視訊處理等領域廣泛應用。
Stable Diffusion 3案例展示
本次的發布頁面也是由Stable Diffusion 3生成的,提示詞:史詩般的動漫藝術風格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語,上面寫著由彩色能量生成的“Stable Diffusion 3”文字
教室桌上有一個紅蘋果,電影風格,背景的黑板上用粉筆寫著“要么做大,要么回家”
一名太空人騎著一隻穿著蓬蓬裙的豬,撐著一把粉紅色的傘,豬旁邊的地上有一隻戴著高帽的知更鳥,角落裡寫著”Stable Diffusion”的字樣。
一隻變色龍,黑色背景,攝影風格。
一輛跑車的夜間照片,側面寫有「SD3」字樣,汽車在賽道上高速行駛,巨大的路標上寫著「更快」的文字。
波浪衝擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。