Midjourney勁敵來了Google StyleDrop王牌“定制大師”引爆AI藝術圈
Midjourney強敵來了!Google定制大師StyleDrop,將一張圖片作為參考,不論多複雜的藝術風格都能複刻。GoogleStyleDrop一出,瞬間在網上刷屏了。給定梵高的星空,AI化身梵高大師,對這種抽像風格頂級理解後,做出無數幅類似的畫作。
再來一張卡通風,想要繪製的物體呆萌了許多。
甚至,它還能精準把控細節,設計出原風格的logo。
StyleDrop的魅力在於,只需要一張圖作為參考,無論多麼複雜的藝術風格,都能解構再复刻。
網友紛紛表示,又是淘汰設計師的那種AI工具。
StyleDrop爆火研究便是來自Google研究團隊最新出品。
論文地址:https://arxiv.org/pdf/2306.00983.pdf
現在,有了StyleDrop這樣的工具,不但可以更可控地繪畫,還可以完成之前難以想像的精細工作,比如繪製logo。
就連英偉達科學家將其稱為“現象級”成果。
“定制”大師
論文作者介紹道,StyleDrop的靈感來源Eyedropper(吸色/取色工具)。
同樣,StyleDrop同樣希望大家可以快速、毫不費力地從單個/少數參考圖像中“挑選”樣式,以生成該樣式的圖像。
一隻樹懶能夠有18種風格:
一隻熊貓有24種風格:
小朋友畫的水彩畫,StyleDrop完美把控,甚至連紙張的褶皺都還原出來了。
不得不說,太強了。
還有StyleDrop參考不同風格對英文字母的設計:
同樣是梵高風的字母。
還有線條畫。線條畫是對圖像的高度抽象,對畫面生成構成合理性要求非常高,過去的方法一直很難成功。
原圖中奶酪陰影的筆觸還原到每種圖片的物體上。
參考AndroidLOGO創作。
此外,研究人員還拓展了StyleDrop的能力,不僅能定制風格,結合DreamBooth,還能定制內容。
比如,還是梵高風,給小柯基生成類似風格的畫作:
再來一個,下面這只柯基有種埃及金字塔上的“獅身人面像”的感覺。
如何工作?
StyleDrop基於Muse構建,由兩個關鍵部分組成:
一個是生成視覺Transformer的參數有效微調,另一個是帶反饋的迭代訓練。
之後,研究人員再從兩個微調模型中合成圖像。
Muse是一種基於掩碼生成圖像Transformer最新的文本到圖像的合成模型。它包含兩個用於基礎圖像生成(256 × 256)和超分辨率(512 × 512或1024 × 1024)的合成模塊。
每個模塊都由一個文本編碼器T,一個transformer G,一個採樣器S,一個圖像編碼器E和解碼器D組成。
T將文本提示t∈T映射到連續嵌入空間E。G處理文本嵌入e∈E以生成視覺token序列的對數l∈L。S通過迭代解碼從對數中提取視覺token序列v∈V,該迭代解碼運行幾步的transformer推理,條件是文本嵌入e和從前面步驟解碼的視覺token。
最後,D將離散token序列映射到像素空間I。總的來說,給定一個文本提示t,圖像I的合成如下:
圖2是一個簡化了的Muse transformer層的架構,它進行了部分修改,為的是支持參數高效微調(PEFT)與適配器。
使用L層的transformer處理在文本嵌入e的條件下以綠色顯示的視覺token序列。學習參數θ被用於構建適配器調優的權重。
為了訓練θ,在許多情況下,研究人員可能只給出圖片作為風格參考。
研究人員需要手動附加文本提示。他們提出了一個簡單的、模板化的方法來構建文本提示,包括對內容的描述,後面跟著描述風格的短語。
例如,研究人員在表1中用“貓”描述一個對象,並附加“水彩畫”作為風格描述。
在文本提示中包含內容和風格的描述至關重要,因為它有助於從風格中分離出內容,這是研究人員的主要目標。
圖3則是帶反饋的迭代訓練。
當在單一風格參考圖像(橙色框)上進行訓練時,StyleDrop生成的一些圖像可能會展示出從風格參考圖像中提取出的內容(紅色框,圖像背景中含有與風格圖像類似的房子)。
其他圖像(藍色框)則能更好地從內容中拆分出風格。對StyleDrop進行好樣本(藍色框)的迭代訓練,結果在風格和文本保真度之間取得了更好的平衡(綠色框)。
這裡研究人員還用到了兩個方法:
-CLIP得分
該方法用於測量圖像和文本的對齊程度。因此,它可以通過測量CLIP得分(即視覺和文本CLIP嵌入的餘弦相似度)來評估生成圖像的質量。
研究人員可以選擇得分最高的CLIP圖像。他們稱這種方法為CLIP反饋的迭代訓練(CF)。
在實驗中,研究人員發現,使用CLIP得分來評估合成圖像的質量是提高召回率(即文本保真度)的有效方式,而不會過多損失風格保真度。
然而從另一方面看,CLIP得分可能不能完全與人類的意圖對齊,也無法捕捉到微妙的風格屬性。
-高頻
人工反饋(HF)是一種將用戶意圖直接注入到合成圖像質量評估中的更直接的方式。
在強化學習的LLM微調中,HF已經證明了它的強大和有效。
HF可以用來補償CLIP得分無法捕捉到微妙風格屬性的問題。
目前,已有大量研究關注了文本到圖像的擴散模型的個性化問題,以合成包含多種個人風格的圖像。
研究人員展示瞭如何以簡單的方式將DreamBooth和StyleDrop結合起來,從而使風格和內容都能實現個性化。
這是通過從兩個修改後的生成分佈中採樣來完成的,分別由風格的θs和內容的θc指導,分別是在風格和內容參考圖像上獨立訓練的適配器參數。
與現有的成品不同,該團隊的方法不需要在多個概念上對可學習的參數進行聯合訓練,這就帶來了更大的組合能力,因為預訓練的適配器是分別在單個主題和風格上進行訓練的。
研究人員的整體採樣過程遵循等式(1)的迭代解碼,每個解碼步驟中採樣對數的方式有所不同。
設t為文本提示,c為無風格描述符的文本提示,在步驟k計算對數如下:
其中:γ用於平衡StyleDrop和DreamBooth——如果γ為0,我們得到StyleDrop,如果為1,我們得到DreamBooth。
通過合理設置γ,我們就可以得到合適的圖像。
實驗設置
目前為止,還沒有對文本-圖像生成模型的風格調整進行廣泛的研究。
因此,研究人員提出了一個全新實驗方案:
-數據收集
研究者收集了幾十張不同風格的圖片,從水彩和油畫,平面插圖,3D渲到不同材質的雕塑。
-模型配置
研究人員使用適配器調優基於Muse的StyleDrop 。對於所有實驗,使用Adam優化器更新1000步的適配器權重,學習速率為0.00003。除非另有說明,研究人員使用StyleDrop來表示第二輪模型,該模型在10多個帶有人工反饋的合成圖像上進行訓練。
-評估
研究報告的定量評估基於CLIP,衡量風格一致性和文本對齊。此外,研究人員進行了用戶偏好研究,以評估風格一致性和文本對齊。
如圖,研究人員收集的18個不同風格的圖片,StyleDrop處理的結果。
可以看到,StyleDrop能夠捕捉各種樣式的紋理、陰影和結構的細微差別,能夠比以前更好地控制風格。
為了進行比較,研究人員還介紹了DreamBooth在Imagen上的結果,DreamBooth在Stable Diffusion上的LoRA實現和文本反演的結果。
具體結果如表所示,圖像-文本對齊(Text)和視覺風格對齊(Style)的人類評分(上)和CLIP評分(下)的評價指標。
(a) DreamBooth,(b) StyleDrop,和(c) DreamBooth + StyleDrop的定性比較:
這裡,研究人員應用了上面提到的CLIP分數的兩個指標——文本和風格得分。
對於文本得分,研究人員測量圖像和文本嵌入之間的餘弦相似度。對於風格得分,研究人員測量風格參考和合成圖像嵌入之間的餘弦相似度。
研究人員為190個文本提示生成總共1520個圖像。雖然研究人員希望最終得分能高一些,但其實這些指標並不完美。
而迭代訓練(IT)提高了文本得分,這符合研究人員的目標。
然而,作為權衡,它們在第一輪模型上的風格得分有所降低,因為它們是在合成圖像上訓練的,風格可能因選擇偏見而偏移。
Imagen上的DreamBooth在風格得分上不及StyleDrop(HF的0.644對比0.694)。
研究人員注意到,Imagen上的DreamBooth的風格得分增加並不明顯(0.569 → 0.644),而Muse上的StyleDrop的增加更加明顯(0.556 →0.694)。
研究人員分析,Muse上的風格微調比Imagen上的更有效。
另外,在細粒度控制上, StyleDrop捕捉微妙的風格差異,如顏色偏移,層次,或銳角的把控。
網友熱評
要是設計師有了StyleDrop,10倍速工作效率,已經起飛。
AI一天,人間10年,AIGC正在以光速發展,那種晃瞎人眼的光速!
工具只是順應了潮流,該被淘汰的已經早被淘汰了。
對於製作Logo來說這個工具比Midjourney好用得多。
來源:新知元