紐約時報、CNN和澳大利亞廣播公司阻止OpenAI爬蟲訪問其內容
包括《紐約時報》、美國有線電視新聞網(CNN)、路透社和澳大利亞廣播公司(ABC)在內的新聞機構已經屏蔽了OpenAI 的一個工具,限制了該公司繼續訪問其內容的能力。OpenAI 是最著名的人工智能聊天機器人之一ChatGPT 的幕後推手。它的網絡爬蟲(稱為GPTBot)可能會掃描網頁,以幫助改進其人工智能模型。
The Verge 最先報導了《紐約時報》在其網站上屏蔽了GPTBot。《衛報》隨後發現,其他主要新聞網站,包括CNN、路透社、《芝加哥論壇報》、澳大利亞廣播公司(ABC)和澳大利亞社區媒體(ACM)品牌,如《堪培拉時報》和《紐卡斯爾先驅報》似乎也傾向於禁止使用網絡爬蟲。
所謂的大型語言模型(如ChatGPT)需要大量信息來訓練系統,使其能夠以類似人類語言模式的方式回答用戶的詢問。但是,這些模型背後的公司往往對其數據集中是否存在受版權保護的資料諱莫如深。
在出版商的robots.txt 文件中可以看到對GPTBot 的封殺,這些文件告訴搜索引擎和其他實體的爬蟲可以訪問哪些頁面。
“允許GPTBot 訪問您的網站可以幫助人工智能模型變得更加準確,並提高它們的總體能力和安全性,”OpenAI 在一篇博文中說,博文中包含瞭如何禁止爬蟲的說明。
所有接受檢查的媒體都在八月份添加了該攔截功能。一些媒體還禁止使用CCBot,它是一個名為”Common Crawl”的開放式網絡數據存儲庫的網絡爬蟲,也被用於人工智能項目。
美國有線電視新聞網(CNN)證實,該公司最近在旗下所有刊物中屏蔽了GPTBot,但並未就該品牌是否計劃對其內容在人工智能係統中的使用採取進一步行動發表評論。
路透社發言人表示,路透社會定期審查其robots.txt 和網站條款。她說:”因為知識產權是我們業務的命脈,所以我們必須保護我們內容的版權。”
《紐約時報》的一位發言人表示,該公司最近更新了服務條款,更加明確地禁止”為人工智能培訓和開發目的……剪切我們的內容”。
自8 月3 日起,其網站規則明確禁止未經同意將出版商的內容用於”開發任何軟件程序,包括但不限於訓練機器學習或人工智能(AI)系統”。
全球新聞機構都面臨著是否將人工智能作為新聞採集的一部分,以及如何處理其內容可能被開發人工智能係統的公司吸入訓練池的問題。人工智能是新聞業的威脅,還是技術會自我毀滅?
8月初,法新社和蓋蒂圖片社等媒體簽署了一封公開信,呼籲對人工智能進行監管,包括”用於創建人工智能模型的所有訓練集的構成”的透明度,以及使用受版權保護材料的許可。
Google建議,除非出版商明確表示不同意,否則人工智能係統應該可以採集出版商的作品。在向澳大利亞政府提交的一份人工智能監管框架審查報告中,該公司主張”版權制度應允許適當、公平地使用受版權保護的內容,以便在澳大利亞利用廣泛多樣的數據訓練人工智能模型,同時支持可行的退出方式”。
OriginalityAI 是一家檢查是否存在人工智能內容的公司,該公司本週分享的研究發現,包括亞馬遜和Shutterstock 在內的主要網站也屏蔽了GPTBot。
澳大利亞廣播公司(ABC)、澳大利亞社區媒體(Australian Community Media)、《芝加哥論壇報》(Chicago Tribune)、OpenAI 和Common Crawl 在截止日期前沒有做出回應。