OpenAI展示DALL-E 2:AI圖像生成器支持編輯圖像了
人工智能研究小組OpenAI 創建了一個新版本的DALL-E,可以根據用戶的自然語言描述來生成圖片。DALL-E 2 是初代系統的高分辨率和低延遲版本,除了根據用戶描述生成圖片之外,還引入了編輯現有圖像等新功能。
與之前的OpenAI 工作一樣,該工具並沒有直接向公眾發布。但研究人員可以在網上註冊預覽該系統,OpenAI 希望以後能將其用於第三方應用程序中。
初代DALL-E 是藝術家“Salvador Dalí”和機器人“WALL-E”的諧音,於2021 年1 月首次亮相。這是對人工智能視覺表現概念能力的一個有限但迷人的測試,從穿法蘭絨襯衫的模特的平凡描述到”烏龜做的長頸鹿”或蘿蔔遛狗的插圖。
使用“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述DALL-E 2 生成的圖像
。當時,OpenAI說它將繼續在該系統的基礎上發展,同時研究潛在的危險,如圖像生成中的偏見或錯誤信息的產生。它正試圖利用技術保障措施和新的內容政策來解決這些問題,同時也在減少其計算負荷,
DALL-E 2的新功能之一是繪畫,在更細的層面上應用DALL-E的文本到圖像的能力。用戶可以從現有的圖片開始,選擇一個區域,並告訴模型來編輯它。例如,你可以把客廳牆上的一幅畫擋住,然後用另一幅畫代替,或者在咖啡桌上增加一個花瓶。
使用“Shiba Inu dog wearing a beret and black turtleneck”描述DALL-E 2 生成的圖像
模型可以填充(或刪除)物體,同時考慮到細節,如房間裡的陰影方向。另一個功能,變化,有點像一個圖片搜索工具,用於搜索不存在的圖片。用戶可以上傳一張起始圖片,然後創建一系列與之相似的變化。他們還可以混合兩張圖片,生成具有兩者元素的圖片。生成的圖片是1024 x 1,024像素,比原始模型提供的256 x 256像素有了飛躍。
使用“An existing image of a room with a flamingo added in one corner.”描述DALL-E 2 生成的圖像
DALL-E 2 建立在CLIP(計算機視覺系統)的基礎上。OpenAI 研究科學家Prafulla Dhariwal 說:“DALL-E 1 只是從語言中提取了我們的GPT-3 方法,並將其應用於製作圖像:我們將圖像壓縮成一系列單詞,我們只是學習預測接下來的內容”。
使用“a bowl of soup that looks like a monster, knitted out of wool.”描述DALL-E 2 生成的圖像
但是單詞匹配並不一定能捕捉到人類認為最重要的品質,而且預測過程限制了圖像的真實性。CLIP被設計用來觀察圖像,並以人類的方式總結它們的內容,OpenAI對這一過程進行了迭代,創造了”unCLIP”–一個從描述開始並向圖像前進的倒置版本。
DALL-E 2使用一種叫做“diffusion”的過程生成圖像,Dhariwal 將其描述為從“一袋點”(bag of dots)開始,然後用越來越多的細節填入一個圖案。