知名維修網站iFixit抱怨Claude發動DDoS攻擊1天造訪數百萬次抓取資料訓練AI
Claude 是由人工智慧開發商Anthropic 開發的人工智慧應用程序,和大多數人工智慧開發商一樣,Anthropic 派出的爬蟲每天會在網路上檢索並抓取大量內容用來訓練人工智慧模型。 iFixit 是業界知名的拆解維修網站,該網站有許多文字和圖片類的拆解文章,於是Anthropic 派出的爬蟲也對iFixit 發起了瘋狂的抓取。
該網站管理員在X/Twitter 上抱怨:我知道你渴望數據,Claude 真的很聰明,但你真的需要在24 小時內對我們的伺服器進行一百萬次攻擊嗎?你不僅不付費就竊取了我們的內容,還佔用了我們的開發營運資源,這太不酷了。
網站日誌顯示ClaudeBot 每分鐘對iFixit 發起數以千計的訪問,這會iFixit 伺服器產生的負面影響,因為這種抓取不僅會消耗伺服器CPU 資源還會消耗網路頻寬,任何網站都不願意看到這種情況。
iFixit 在接受404media 採訪時表示:
我們是世界上最大的維修資訊資料庫,如果他們未經允許就把所有資訊都拿走、導致我們伺服器癱瘓。 iFixit 目前擁有數百萬個鏈接,包括各種維修指南、維修修訂歷史、部落格、新聞帖子、研究、論壇、社區貢獻的維修指南以及問答等。
對於抱怨Anthropic 的支援團隊並未道歉並且給予以下回應:
依照業界標準Anthropic 使用各種資料來源進行模型開發,例如透過網路爬蟲收集的網路上的公開資料。我們的抓取不應該具有侵擾性和破壞性,我們的目標是在適當的情況下尊重抓取延遲將幹擾降到最低。
對網站來說最簡單的方式就是直接屏蔽Claude 爬蟲,藍點網也同樣面臨Claude 爬蟲的DDoS 攻擊,該爬蟲確實會以每分鐘幾千次的頻率進行抓取,這對藍點網服務器產生了影響所以我們早早就屏蔽了Claude 爬蟲。
要屏蔽的話可以在robots.txt 中加入以下內容:
User-agent: ClaudeBotDisallow: /
當然為了保險起見我們還在Nginx 上使用了正規表示式匹配ClaudeBot 爬蟲,如果ClaudeBot 爬蟲未遵守robots.txt 協定繼續抓取,那可以直接攔截。
為了避免爬蟲無法抓取robots.txt 檔案建議站長先更新robots.txt,幾天後如果在網站日誌裡仍然能看到ClaudeBot 抓取非robots.txt 檔案的記錄,那就代表未遵守協議,可以直接透過Nginx 返回HTTP 444 丟棄連線降低伺服器負載。