AI公司不斷開發新爬蟲繞過阻擋網站運作跟不上
在網路建立的早期,大家有了一個不成文的協議,即一個名為「robot.txt」的文字檔案-也就是攔截清單中將決定誰能夠造訪你的網站,這主要針對機器人/爬蟲。一般網站主要對搜尋引擎開放,以讓搜尋引擎帶來流量。但這個不成文的約定正在被人工智慧公司打破。
已經有許多網站為了保護權益正在試圖阻止一家名為Anthropic 的AI 公司抓取網站內的內容。然而隨著該公司不斷開發新的爬蟲,來不及更新「robot.txt」檔案的網站成了被盜用資源的受害者。
根據404 Media採訪追蹤網路爬蟲和抓取工具網站的Dark Visitors 經營者,他在幫助其他網站經營者更新「robot.txt」期間發現,現狀非常混亂。匿名運營著說:“代理生態系統瞬息萬變,因此網站所有者基本上不可能手動跟上。”
拿Anthropic 距離,一些熱門網站例如路透社等在robot.txt 中組織了“ANTHROPIC-AI”和“CLAUDE-WEB”兩個爬蟲,他們曾由Anthropic 的Claude AI 聊天機器人使用,但目前該公司最活躍的爬蟲實際上是“CLAUDEBOT”,因此這些網站都不會阻止該爬蟲。其他數百個複製貼上攔截清單的網站也未能阻止該公司。
404 Media 採訪了許多網路產業從業者,他們都表示面對AI 公司的這種行為,鼓勵網站積極封鎖此類機器人/爬蟲。網路安全公司StackAware執行長Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽對象,並說道:“如果它們最終不存在,那麼阻止它們也不會產生任何影響。”
他還表示該屏蔽列表說到底也不過是互聯網的一個約定俗成,「阻止AI 公司的代理依賴於AI 公司尊重robot.txt 文件,並且你還需要知道所有的AI 抓取代理。對於大多數公司來說,這種情況的可能性很低,因此我預計更多的創作者會將他們的內容轉移為付費觀看,以防止無限制的抓取。