Google:公司的新文字轉圖像AI模型優於其他競爭對手
Google稱,公司的一個新文本到圖像的人工智能擊敗了競爭對手。據悉,該程序被稱為Imagen,它接收文本–如“一張戴著牛仔帽和紅色襯衫的波斯貓在海灘上彈吉他的照片”–並輸出結果。Imagen可以生成逼真的圖像或藝術化的渲染。
Imagen是繼DALL-E、VQ-GAN+CLIP和Latent Diffusion Models等其他文本-圖像生成器之後的又一成果。Google表示,當被要求比較由Imagen和其他文本-圖像生成器所生成的圖像時,人們發現其模型在準確性和圖像保真度方面都要優於競爭對手。
Google在其Imagen網站上分享了幾個文本提示和AI創建的圖像的例子,但這些可能只代表其產生的最佳結果。Google拒絕對這一事件發表評論。
文本-圖像學習模型顯示了機器學習系統的力量。在這種情況下,Imagen消除了知道如何使用Photoshop等專業軟件來創建抽像圖像的必要性。正如本月初在GoogleI/O大會上指出的那樣,AI系統正在幫助該公司接近其環境計算的未來願景。環境計算是指有一天人們能直觀地使用計算機而無需特定的系統或代碼知識。
然而Google並沒有忽視文本到圖像的人工智能的力量,該公司選擇不向公眾發布Imagen。Imagen從互聯網上搜刮信息從而學習和創造圖像。由於互聯網可能充滿了陳規定型觀念和偏見,這些最終會出現在Imagen中。Google表示,這些偏見包括對淺色膚色的偏愛和某些西方性別定型觀念。該公司還擔心,Imagen可能被不良行為者消極利用。
Google發表的一份白皮書稱:“生成方法可以被用於惡意目的–包括騷擾和錯誤信息的傳播,並引起許多關於社會和文化排斥和偏見的擔憂。”
Google告誡其他AI製造商,在沒有密切關注AI被訓練的信息的情況下,對向公眾發布文本-圖像模型要保持警惕。