Google為內容供應商提供了一個開關使其可以選擇不成為AI訓練數據
Google剛剛宣布,它將為網站出版商提供一種方法,讓他們可以選擇不將其資料用於訓練公司的人工智慧模型,同時繼續透過Google搜尋進行存取。這個名為Google-Extended的新工具允許網站繼續被Googlebot等爬蟲抓取和編入索引,同時避免其資料被用於訓練該公司現在和未來的人工智慧模型。 該公司稱,Google-Extended 將讓發布商”管理其網站是否有助於改進Bard 和Vertex AI 生成API”,並補充說,網絡發布商可以使用切換鍵”控制對網站內容的訪問”。Google今年7 月證實,它正在利用從網路上搜刮的公開資料來訓練其人工智慧聊天機器人Bard。Google-Extended可透過robots.txt(網站根目錄的文字文件,用於告知網路爬蟲是否可以存取某些網站)使用。Google指出,”隨著人工智慧應用的擴展”,它將繼續探索”更多機器可讀的方法,為網路發布者提供選擇和控制”,並將很快分享更多資訊。目前,許多網站已經開始封鎖OpenAI 用來抓取資料和訓練ChatGPT 的網路爬蟲,其中包括《紐約時報》、CNN、路透社和Medium。不過,如何屏蔽Google一直是個問題。畢竟,網站不能完全關閉Google的爬蟲,否則就無法在搜尋中被收錄。這使得《紐約時報》等一些網站透過更新服務條款,禁止公司使用其內容訓練人工智慧,從而從法律上封鎖Google。