麻省理工學院研究人員開發出對影像品質影響最小的超快速影像生成方法
生成式人工智慧服務可以產生高品質的視覺拼湊,但通常相當緩慢。麻省理工學院和Adobe 公司的研究人員針對這個耗時問題開發了一種潛在的解決方案,即一種對影像品質影響最小的全新超快速影像生成方法。該技術每秒可產生約20 張影像。
影像生成人工智慧通常採用一種稱為擴散的過程,透過幾個取樣步驟來完善視覺輸出,以達到最終希望”逼真”的結果。研究人員表示,擴散模型可以產生高品質的影像,但需要數十次前向傳遞。
Adobe 研究中心和麻省理工學院的專家正在引進一種名為”分佈匹配蒸餾”(DMD)的技術。此程序將多步驟擴散模型簡化為一步影像生成解決方案。由此產生的模型可以產生與Stable Diffusion 1.5 等”傳統”擴散模型相當的影像,但速度要快上幾個數量級。
“我們的核心理念是訓練兩個擴散模型,不僅能估計目標真實分佈的得分函數,還能估計假分佈的得分函數。」研究人員稱,他們的模型可以在現代GPU 硬體上每秒生成20 幅圖像。
上面的影片短片重點介紹了DMD 與Stable Diffusion 1.5 相比的影像生成能力。標清每張影像需要1.4 秒,而DMD 只需幾分之一秒就能產生類似的影像。雖然在品質和效能之間有所權衡,但最終結果仍在一般使用者可接受的範圍之內。
該團隊發表的關於新渲染方法的文章展示了使用DMD 生成圖像結果的更多範例。它比較了穩定擴散和DMD,同時提供了產生影像的重要文字提示。主題包括透過虛擬數位單眼相機鏡頭取景的一隻狗、多洛米蒂山脈、森林中一隻神奇的鹿、一隻鸚鵡寶寶的3D 渲染、獨角獸、鬍鬚、汽車、貓,甚至更多的狗。
分佈匹配蒸餾法並不是第一種用於產生人工智慧影像的單步驟方法。Stability AI 公司開發了一種被稱為逆向擴散蒸餾(ADD)的技術,用於即時生成100 萬像素的影像。該公司透過ADD 訓練其SDXL Turbo 模型,在單一NVIDIA A100 AI GPU 加速器上實現了僅207 毫秒的影像生成速度。Stability 的ADD 採用了與麻省理工學院的DMD 類似的方法。