《紐約時報》禁止使用其內容訓練人工智能模型
《紐約時報》已採取先發製人的措施,阻止其內容被用於訓練人工智能模型。據Adweek 報導,《紐約時報》於8 月3 日更新了服務條款,禁止將其內容(包括文字、照片、圖像、音頻/視頻剪輯、”外觀和感覺”、元數據或彙編)用於開發”任何軟件程序,包括但不限於訓練機器學習或人工智能(AI)系統”。 更新後的條款還規定,未經出版物的書面許可,不得使用旨在使用、訪問或收集此類內容的網站爬蟲等自動化工具。《紐約時報》表示,拒絕遵守這些新限制可能會導致未說明的罰款或處罰。儘管在其政策中引入了新規則,但該出版物似乎並未對其robots.txt 文件(該文件用於告知搜索引擎爬蟲哪些URL 可以訪問)進行任何修改。 Google最近允許自己在從網絡收集的公共數據上訓練人工智能服務。此舉可能是為了回應Google最近更新的隱私政策,該政策披露了這家搜索巨頭可能會從網絡上收集公共數據來訓練其各種人工智能服務,如巴德(Bard)或云人工智能(Cloud AI)。許多支持流行人工智能服務(如OpenAI 的ChatGPT)的大型語言模型都是在龐大的數據集上訓練出來的,而這些數據集可能包含未經原創作者許可從網絡上採集來的受版權保護或其他保護的資料。儘管如此,《紐約時報》也在今年2 月與Google簽署了一份價值1 億美元的協議,允許這家搜索巨頭在未來三年內在其《紐約時報》的一些平台上提供內容。該出版物稱,兩家公司將在內容分發、訂閱、營銷、廣告和”實驗”工具方面展開合作,因此《紐約時報》服務條款的修改有可能是針對OpenAI 或微軟等其他公司的。OpenAI 最近宣布,網站運營商現在可以阻止其GPTBot 網絡爬蟲對其網站的抓取。微軟也在自己的條款和條件中增加了一些新的限制,禁止人們使用其人工智能產品”創建、訓練或改進(直接或間接)任何其他人工智能服務”,同時禁止用戶從其人工智能工具中搜刮或以其他方式提取數據。本月早些時候,包括美聯社和歐洲出版商理事會在內的多家新聞機構簽署了一封公開信,呼籲全球立法者制定相關規則,要求訓練數據集透明,並在使用數據進行訓練前徵得權利人的同意。