OpenAI推DALL-E模型:能根據文字描述生成圖片
機器學習公司OpenAI今天宣布了兩套多模態人工智能係統DALL-E和CLIP。DALL-E能將計算機視覺和自然語言處理(NLP)結合起來,能夠從文本描述中生成圖片。例如,下面這張照片就是由“穿著芭蕾舞裙遛狗的小蘿蔔插圖”生成的。
在OpenAI 今天分享的測試中,表明Dall-E 有能力對生成的圖像中的物體進行操作和重新排列,也能夠創作出一些不存在的東西,例如豪豬的紋理或者云朵的立方體。
OpenAI 今天在一篇關於DALL-E 的網絡日誌中表示:“我們認識到,涉及生成式模型的工作有可能產生重大而廣泛的社會影響。未來,我們計劃分析像DALL-E這樣的模型與社會問題的關係,比如對某些工作流程和職業的經濟影響,模型輸出中潛在的偏見,以及這項技術所隱含的更長期的道德挑戰”。
OpenAI今天還介紹了CLIP,這是一個多模態模型,教育了4億對從萬維網收集的圖片和文字。CLIP利用了類似於GPT-2和GPT-3語言模型的零射學習能力。
在關於該模型的論文中寫道:“我們發現,CLIP與GPT家族類似,在前期訓練中可以學習執行一系列廣泛的任務,包括OCR、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的零點轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型競爭。”