AI抓取工具img2dataset困擾著圖片網站
img2dataset是一款自動在互聯網上搜索圖像數據並用訓練於人工智能圖像生成器的免費工具,不過這款工具引發了網站所有者的擔憂。網站所有者認為這款工具將擅自獲取他們的圖像和數據,而不是經過許可,希望img2dataset停止抓取行為的做法。
對此,這款工具的創建者羅曼·博蒙特(Romain Beaumont)在其GitHub表示,他們(網站擁有者)正在與人工智能不可避免的崛起作鬥爭,這是“可悲的”。“令人難過的是,你們中的一些人不了解人工智能和開放人工智能的潛力,因此決定與之鬥爭。”“在未來的幾年裡,你將有很多機會從人工智能中受益。我希望你儘早看到這一點。作為創作者,你有更多的機會從中受益。”
Img2dataset是博蒙特在GitHub上共享的免費工具,允許用戶自動下載和調整URL列表,從而獲得圖像數據集,這種數據集訓練圖像生成人工智能模型,如OpenAI的DALL-E,開源的Stable Diffusion和Google的Imagen。
博蒙特還是LAION-5B的開源貢獻者,LAION-5B是世界上最大的圖像數據集之一,包含超過50億張圖像,供給Imagen和Stable Diffusion使用。
Img2dataset會嘗試從任何網站抓取圖像,除非網站所有者添加https頭,如“X-Robots-Tag: noai”和“X-Robots-Tag: noindex”。這意味著網站所有者可以選擇”阻止“img2dataset,不過他們中的許多人可能甚至不知道img2dataset的存在。
博蒙特為img2dataset辯護,將該工具與Google索引網站的方式進行比較,稱Google索引方式對任何想搜索互聯網的人都有好處。
對此有專家認為,網站所有者是直接受益於搜索引擎,因為它們為網站帶來了有用的流量。Google的機器人是有原則的,不會攻擊網站,大多數機器人都尊重robots.txt指令。而Img2dataset則沒有,該工具似乎是故意設忽視網站所有者的指令。坦率地說,它並沒有給網站所有者帶來任何直接好處。
毫無疑問,Img2dataset這款AI工具引起了網站所有者的擔憂,他們擔心他們的敏感數據和隱私正在被侵犯,如果AI技術的發展不受控制,很容易操縱大量的數據。