谷歌Parti生成器依靠200億參數將文本轉成栩栩如生的圖像
谷歌週四介紹了Parti 文本轉圖像生成器項目的最新進展,可知通過200 億輸入的訓練,其已能夠創建出栩栩如生的圖像。不過為了避免AI 數據集中存在的偏見風險,該公司並未通過公眾發布的文本來展開訓練。
據悉,Parti 全稱為“Pathways Autoregressive Text-to-Image”(路徑自回歸文本轉圖像)。隨著可使用參數數量的增長,其輸出的圖像也能夠更加逼真。
本例中,Parti 在生成最終圖像之前,已經研究了200 億量級的參數。相比之下,Imagen 是Google 設計用於擴散學習的文本轉圖像生成器。
工作期間,它會通過向圖像添加“噪聲”來訓練計算機模型,讓它初步生成模糊的靜態圖像,然後模型會通過學習來嘗試解碼靜態圖像。
隨著模型的改進,系統可以將一系列隨機點,逐漸變成我們最終看到的栩栩如生的重新生成圖像。
最後,除了Parti 和Imagen,我們還有聽說過其它文本轉圖像模型—— 比如Dall-E、VQ-GAN+CLIP 和Latent Diffusion Models 。