Nightshade用向圖像「投毒」的方法以阻止AI訓練並幫助保護藝術家
人們對生成式人工智慧的許多擔憂之一是,它們能夠在未經原始創作者許可的情況下,使用從網路上抓取的圖像生成圖片。但一種新工具可以透過向訓練模型使用的資料「投毒」來解決這個問題。 《麻省理工科技評論》重點介紹了由芝加哥大學研究人員創建的名為Nightshade 的新工具。它的工作原理是在上傳圖像之前對圖像像素進行非常小的更改,這些更改是肉眼無法看到的。這會毒害DALL-E、Stable Diffusion 和Midjourney 等工具使用的訓練數據,導致模型以不可預測的方式崩潰。生成式人工智慧如何錯誤地解釋被茄屬植物毒害的圖像的一些例子包括將狗變成貓,將汽車變成牛,將帽子變成蛋糕,將手提包變成烤麵包機。 它也適用於提示不同的藝術風格:立體派變成動漫,卡通變成印象派,概念藝術變成抽象派。研究人員最近在arXiv 上發表的論文將Nightshade 描述為一種特定提示的中毒攻擊。Nightshade 不需要毒害數百萬張影像,而是可以用大約50 個樣本破壞穩定擴散提示,如下圖所示。研究人員寫道,該工具不僅可以毒害「狗」等特定提示術語,還可以「滲透」到「小狗」、「獵犬」和「哈士奇」等相關概念。它甚至會影響間接相關的圖像; 例如,中毒「幻想藝術」會將「一條龍」、「魔戒中的一座城堡」和「邁克爾·惠蘭的一幅畫」的提示變成不同的東西。領導了Nightshade 創建團隊的芝加哥大學教授趙本表示,他希望該工具能夠對不尊重藝術家版權和智慧財產權的人工智慧公司起到威懾作用。他承認存在惡意使用的可能性,但要對更大、更強大的模型造成真正的損害,攻擊者需要毒害數千張圖像,因為這些系統是在數十億資料樣本上進行訓練的。生成式人工智慧模型訓練者還可以使用針對這種做法的防禦措施,例如過濾高損失資料、頻率分析和其他偵測/刪除方法,但趙本說它們不是很穩健。一些大型人工智慧公司讓藝術家可以選擇不將他們的作品用於人工智慧訓練資料集,但這可能是一個艱鉅的過程,並且無法解決任何可能已經被放棄的作品。許多人認為藝術家應該可以選擇加入而不是必須選擇退出。