OpenAI展示DALL-E 2：AI圖像生成器支持編輯圖像了

2022-04-07 Comments 0 Comment

人工智能研究小組OpenAI 創建了一個新版本的DALL-E，可以根據用戶的自然語言描述來生成圖片。DALL-E 2 是初代系統的高分辨率和低延遲版本，除了根據用戶描述生成圖片之外，還引入了編輯現有圖像等新功能。

與之前的OpenAI 工作一樣，該工具並沒有直接向公眾發布。但研究人員可以在網上註冊預覽該系統，OpenAI 希望以後能將其用於第三方應用程序中。

初代DALL-E 是藝術家“Salvador Dalí”和機器人“WALL-E”的諧音，於2021 年1 月首次亮相。這是對人工智能視覺表現概念能力的一個有限但迷人的測試，從穿法蘭絨襯衫的模特的平凡描述到”烏龜做的長頸鹿”或蘿蔔遛狗的插圖。

使用“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述DALL-E 2 生成的圖像

。當時，OpenAI說它將繼續在該系統的基礎上發展，同時研究潛在的危險，如圖像生成中的偏見或錯誤信息的產生。它正試圖利用技術保障措施和新的內容政策來解決這些問題，同時也在減少其計算負荷，

DALL-E 2的新功能之一是繪畫，在更細的層面上應用DALL-E的文本到圖像的能力。用戶可以從現有的圖片開始，選擇一個區域，並告訴模型來編輯它。例如，你可以把客廳牆上的一幅畫擋住，然後用另一幅畫代替，或者在咖啡桌上增加一個花瓶。

使用“Shiba Inu dog wearing a beret and black turtleneck”描述DALL-E 2 生成的圖像

模型可以填充（或刪除）物體，同時考慮到細節，如房間裡的陰影方向。另一個功能，變化，有點像一個圖片搜索工具，用於搜索不存在的圖片。用戶可以上傳一張起始圖片，然後創建一系列與之相似的變化。他們還可以混合兩張圖片，生成具有兩者元素的圖片。生成的圖片是1024 x 1,024像素，比原始模型提供的256 x 256像素有了飛躍。

使用“An existing image of a room with a flamingo added in one corner.”描述DALL-E 2 生成的圖像

DALL-E 2 建立在CLIP（計算機視覺系統）的基礎上。OpenAI 研究科學家Prafulla Dhariwal 說：“DALL-E 1 只是從語言中提取了我們的GPT-3 方法，並將其應用於製作圖像：我們將圖像壓縮成一系列單詞，我們只是學習預測接下來的內容”。

使用“a bowl of soup that looks like a monster, knitted out of wool.”描述DALL-E 2 生成的圖像

但是單詞匹配並不一定能捕捉到人類認為最重要的品質，而且預測過程限制了圖像的真實性。CLIP被設計用來觀察圖像，並以人類的方式總結它們的內容，OpenAI對這一過程進行了迭代，創造了”unCLIP”–一個從描述開始並向圖像前進的倒置版本。

DALL-E 2使用一種叫做“diffusion”的過程生成圖像，Dhariwal 將其描述為從“一袋點”（bag of dots）開始，然後用越來越多的細節填入一個圖案。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

OpenAI展示DALL-E 2：AI圖像生成器支持編輯圖像了

2022-04-07 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆