DALL·E 3必開測:馬騎太空人難題攻破,一張畫指定50個物體
DALL·E 3限量測試,已由微軟Bing搶先開啟,看看你是歐皇之一嗎?沒收到資格也沒關係,加上第三方研究預覽、OpenAI員工的內部試玩,各種測試案例紛紛湧現,包看過癮。最誇張的一個,要數「指定畫面中出現50個不同物體」,結果足足畫出了幾百個。
△來自Windows Latest
除了簡單平鋪排列,更可以把這些物體組合得更有創意一些。
馬騎太空人這種反事實概念,過去OpenAI和Google的各種模型都只能畫出太空人騎馬。
在論文一般當成失敗案例,當時還被AI悲觀主義者馬庫斯好一頓嘲諷。
現在,DALL·E 3在ChatGPT加持下輕鬆搞定。
DALL·E 3這次這麼大進步,不只是OpenAI自己的努力,而是與微軟通力合作的結果。
雖然沒有明確說明,但貢獻名單中研究部分就有至少3位微軟工程師與研究員參與,推理優化部分更是大部分成員來自微軟DeepSpeed團隊。
回看GPT-4時還是主要由OpenAI內部研發,再給微軟和其他研究機構開放權限一同測試。
這次合作模式的變化,也代表兩家公司關係進一步加深。
一張畫指定50個物體
由微軟Bing執行長Mikhail Parakhin確認,最幸運的幾分用戶已經獲得測試資格了。
由於名額著實有限,等不及的網友紛紛在線上提出腦洞,請有號的人幫忙測試。
提出畫50個不同物體的網友,就是想測試DALL·E 3一張畫中能容納多少物體,類似大語言模型的「上下文視窗」。
收到研究預覽版的第三方設計師Nathan Shipley接下了這個挑戰。
首先他先讓ChatGPT隨機列出50個日常物體,然後直接要求把這些物體都畫在一幅畫裡就可以了。完整的提示詞是ChatGPT自己補全,再由DALL·E 3畫出來。
接下來Nathan問:“你能創造一個衝浪者在努力衝浪時將這些物體堆成一堆的圖像嗎?”
ChatGPT在提示詞中補充了一些細節:
一名中年玻里尼西亞男性衝浪者有被陽光吻過的皮膚,他舉著50種物品,奮力衝浪,其中包括茶杯、自行車、雨傘……海浪在他周圍拍打,他的表情充滿決心和輕微的恐慌,試著平衡這些物體和他的衝浪板。
結果一次嘗試就得到了基本上符合要求的圖像,只是人物表情看起來更像是非常恐慌,而不是輕微恐慌。
後來Nathan又提出換一個更低的視角的要求,這回ChatGPT把提示詞中的人物描述換成了「一名西班牙老年女性」。
圍觀網友都覺得非常驚人,但也指出為什麼鉛筆的大小與其他物體不成比例。
有人猜測模型只是知道某樣物體長什麼樣子,但不知道其相對大小,尤其鋼筆宣傳圖片通常會採用近景。
此外Nathan也從ChatGPT嘴裡拷問了使用者都能控制畫面的哪些參數。
ChatGPT回覆如下:
描述:您可以提供所需圖像的詳細描述。您越具體和詳細,生成的圖像就越接近您的願望。
風格與媒介:您可以指定圖像的風格或媒介,例如「油畫」、「照片」、「插畫」、「卡通」、「水彩」、「3D渲染」等。
解析度:預設情況下,影像以1729×1024解析度產生。但如果您的描述建議使用全身肖像或更適合高縱橫比的內容,則將以1024×1792生成圖像。如果需要,您也可以要求正方形解析度(1024×1024)。
圖片數量:如果您沒有指定,我通常會根據您的描述建立四個不同的圖片。但是,您可以請求特定數量(最多四個)。
修改:如果您對初始結果不滿意,可以提供回饋並要求修改。雖然我無法直接修改現有圖像,但我可以使用您的回饋來產生更符合您的願景的新圖像。
隨機種子:如果您想修改先前的圖像,我可以使用該圖像元資料中的種子來產生新版本。這確保了原始影像和修改後的影像之間的一定一致性。
請注意,存在某些限制。例如公眾人物的形象,以及最近100年內的藝術家的風格,都無法直接創造。
重點在後面:
然而,我可以提供替代方案或使用形容詞來捕捉特定風格的本質,而無需直接引用它。
馬騎太空人難題破解
OpenAI內部員工中,Will DePue是最積極公開DALL·E 3試玩結果的了。
在馬騎太空人測試中,他表示其實也不是100%成功。
兩至三次嘗試之內就能搞定,因為GPT-4在與你一起完善提示詞,直到寫對為止。
只要付出一些努力,你就能得到幾乎所有你想要的。
有網友嘗試用MidJourney得到相同的結果,只能說也不是完全不行,就是要費老大勁了。
幾乎不可能,需要大量的提示工程,而且很難重現。
如果你是MidJourney資深用戶,不妨試試能不能成。
在網友提出的「8個長頸鹿喝水」挑戰中,DALL·E 3再一次展現出很難把數字數準確的弱點。
△數數圖中一共有幾隻長頸鹿
更多錯誤嘗試中還出現了一個雙頭長頸鹿。
讓AI正確計數這次沒有解決,但至少解決了理解空間關係的問題。
網友提出的「四匹斑馬在草原上奔跑,一頭獅子在後面追趕,上面有一隻鷹,圖片中沒有其他動物」挑戰中,空間關係基本上正確,但是多了一隻斑馬。
相較之下,DALL·E 2和Stable Diffusion對空間關係的理解都要更差。
OpenAI負責ChatGPT企業版的Adam Goldberg也曬出不少高品質結果,不過沒有分享提示詞。
負責AI寫程式碼和呼叫工具的Jerry Tworek則搞出不少抽象概念畫,如「機械細胞的分裂」。
以及「橫跨銀河系的電腦程式樹」。
微軟OpenAI通力合作
DALL·E 3這次巨大提升,除了整合ChatGPT,影像生成部分具體是怎麼做到的呢?
很可惜,鑑於OpenAI越來越Close的趨勢,很可能不會像前兩代那樣公佈論文了,只能從貢獻名單中略作猜測。
DALL·E 2論文共有5位作者。
而DALL·E 3暫且不看產品、安全、公共溝通和法律等團隊,光研究部分就有18人參與。
其中提出一致性模式(Consistency Models)的清華校友宋颮(Yang Song)在列。
一致性模型比目前最受歡迎的擴散模型速度更快,3.5秒就能產生64張256*256的影像。
但宋颮此次屬於次要研究貢獻,不確定是否DALL·E 3使用了一致性模型,更可能是在改良擴散模型中藉鏡了他的方法。
此外,除了DALL·E 2作者和ChatGPT團隊的歐陽龍等,至少有3位研究者來自微軟。
Jianfeng Wang博士畢業於中科大,在微軟任主任研究員。
Lijuan Wang博士畢業於清華大學,在微軟擔任主任研究經理。
兩人曾參與無限畫布圖片生成NUWA-Ininity的研究。
李琳婕(Lindsey Li)是北理工校友,分別從普渡大學和UC聖地牙哥獲得兩個碩士學位,在微軟任資深研究員,在多模態領域有多篇頂會論文。
除了研究方面,DALL·E 3的推理優化有微軟DeepSpeed團隊深度參與。
Deepspeed是開源的深度學習最佳化函式庫,減少運算功耗和記憶體使用,在現有硬體上透過更好的平行來訓練和推理大規模分散式模型。
其中不少人都表示很高興能參與這項工作,並對DALL·E 3的發布感到興奮。
最後,在特別貢獻中,微軟的Bing執行長Mikhail Parakhin、Azure雲端首席副總裁Misha Bilenko都在其中。
微軟先前的發布活動中也確認了Bing會直接整合DALL·E 3。
按照現在規則,Bing上的DALL·E 2是免費的。會發放99個加速代幣,沒代幣只需要更長時間排隊。
雖然10月DALL·E 3在ChatGPT Plus要收費每月20美元。
但既然GPT-4在Bing上是免費提供的,將來DALL·E 3免費玩也可以期待一波了~