OpenAI推DALL-E模型：能根據文字描述生成圖片

2021-01-06 Comments 0 Comment

機器學習公司OpenAI今天宣布了兩套多模態人工智能係統DALL-E和CLIP。DALL-E能將計算機視覺和自然語言處理（NLP）結合起來，能夠從文本描述中生成圖片。例如，下面這張照片就是由“穿著芭蕾舞裙遛狗的小蘿蔔插圖”生成的。

在OpenAI 今天分享的測試中，表明Dall-E 有能力對生成的圖像中的物體進行操作和重新排列，也能夠創作出一些不存在的東西，例如豪豬的紋理或者云朵的立方體。

OpenAI 今天在一篇關於DALL-E 的網絡日誌中表示：“我們認識到，涉及生成式模型的工作有可能產生重大而廣泛的社會影響。未來，我們計劃分析像DALL-E這樣的模型與社會問題的關係，比如對某些工作流程和職業的經濟影響，模型輸出中潛在的偏見，以及這項技術所隱含的更長期的道德挑戰”。

OpenAI今天還介紹了CLIP，這是一個多模態模型，教育了4億對從萬維網收集的圖片和文字。CLIP利用了類似於GPT-2和GPT-3語言模型的零射學習能力。

在關於該模型的論文中寫道：“我們發現，CLIP與GPT家族類似，在前期訓練中可以學習執行一系列廣泛的任務，包括OCR、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的零點轉移性能進行基準測試來衡量，發現它可以與之前的特定任務監督模型競爭。”

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。