AI公司不斷開發新爬蟲繞過阻擋網站運作跟不上

2024-07-31 Comments 0 Comment

在網路建立的早期，大家有了一個不成文的協議，即一個名為「robot.txt」的文字檔案－也就是攔截清單中將決定誰能夠造訪你的網站，這主要針對機器人/爬蟲。一般網站主要對搜尋引擎開放，以讓搜尋引擎帶來流量。但這個不成文的約定正在被人工智慧公司打破。

已經有許多網站為了保護權益正在試圖阻止一家名為Anthropic 的AI 公司抓取網站內的內容。然而隨著該公司不斷開發新的爬蟲，來不及更新「robot.txt」檔案的網站成了被盜用資源的受害者。

根據404 Media採訪追蹤網路爬蟲和抓取工具網站的Dark Visitors 經營者，他在幫助其他網站經營者更新「robot.txt」期間發現，現狀非常混亂。匿名運營著說：“代理生態系統瞬息萬變，因此網站所有者基本上不可能手動跟上。”

拿Anthropic 距離，一些熱門網站例如路透社等在robot.txt 中組織了“ANTHROPIC-AI”和“CLAUDE-WEB”兩個爬蟲，他們曾由Anthropic 的Claude AI 聊天機器人使用，但目前該公司最活躍的爬蟲實際上是“CLAUDEBOT”，因此這些網站都不會阻止該爬蟲。其他數百個複製貼上攔截清單的網站也未能阻止該公司。

404 Media 採訪了許多網路產業從業者，他們都表示面對AI 公司的這種行為，鼓勵網站積極封鎖此類機器人/爬蟲。網路安全公司StackAware執行長Walter Haydock 就表示支持在“robot.txt”中添加大量的可能屏蔽對象，並說道：“如果它們最終不存在，那麼阻止它們也不會產生任何影響。”

他還表示該屏蔽列表說到底也不過是互聯網的一個約定俗成，「阻止AI 公司的代理依賴於AI 公司尊重robot.txt 文件，並且你還需要知道所有的AI 抓取代理。對於大多數公司來說，這種情況的可能性很低，因此我預計更多的創作者會將他們的內容轉移為付費觀看，以防止無限制的抓取。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

WONGCW 網誌

記錄生活經驗與點滴

AI公司不斷開發新爬蟲繞過阻擋網站運作跟不上

2024-07-31 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆