Google推出新影像控制方式可在StableDiffusion影像生成中保證內容特徵一致性
Google最近推出了一種新的影像生成技術,確保內容特徵的一致性,可以產生具有相同視覺特徵的連貫影像。這對於故事視覺化、遊戲開發和廣告等領域非常重要,因為在生成過程中,角色或內容的一致性是必要的。
論文地址:https://arxiv.org/pdf/2311.10093.pdf
這項技術的實現方法包括三個步驟。首先是身份聚類,透過產生一系列圖像,並將它們嵌入到語義空間中,使用聚類演算法將這些圖像分組,每個組代表一種可能的角色身份。這個過程旨在識別出一組視覺上一致的圖像,從而確定角色的主要視覺特徵。
接下來是身份提取,一旦確定了一組具有高內聚性的圖像,就會在這些圖像上訓練模型,以提取出更一致的角色身份。這意味著模型將學習特定角色的關鍵視覺特徵,以便在未來的生成中更準確地重現這些特徵。