人體3D模型網站遭OpenAI爬蟲瘋狂抓取引起癱瘓類似某種DDoS攻擊
搜尋引擎或其他爬蟲高頻次抓取網站導致伺服器癱瘓的案例並不少見,包括藍點網在內的多個網站都曾遇到這類爬蟲引起網站無法正常存取。現在人工智慧公司的爬蟲替代搜尋引擎成為整個網路上抓取頻率最高的爬蟲,對某些網站來說如果沒有規範設定robots.txt 檔案進行阻止那可能就會出現伺服器癱瘓的情況。
例如最新的案例是烏克蘭網站Trilegangers,該網站提供大量的人體3D 模型資料供3D 藝術家、電玩遊戲開發人員以及任何需要以數位方式重新真實人類特徵的人購買。
儘管該網站已經在使用協議裡註明未經授權禁止抓取和使用網站的所有數據,但Trilegangers 並未正確設定robots.txt 檔案阻止包括GPTBot 在內的爬蟲。
本週六該網站癱瘓且症狀類似於DDoS 分散式阻斷服務攻擊,經過檢查後發現罪魁禍首是OpenAI 用於抓取資料訓練人工智慧的GPTBot 爬蟲。
Trilegangers 工作人員檢查伺服器日誌後發現,OpenAI 派出的GPTBot 爬蟲以600 多個不同的IP 位址發起數以萬計的請求,這些並發請求直接讓伺服器無法處理流量導致癱瘓。
根據OpenAI 公佈的爬蟲說明,如果網站不想被GBTBot 爬蟲抓取內容,則需要在robots.txt 中使用規範命令進行阻止,Trilegangers 網站並未設定該檔案。
robots.txt 屬於業界的約定俗成並非法律規範,但即便沒有設定robots.txt 文件,GPTBot 抓取資料再由OpenAI 使用資料訓練AI 也是違法行為,因為Trilegangers 網站本身已經禁止未經授權的使用。
另一方面Trilegangers 使用AWS 的伺服器,由於GPTBot 的瘋狂抓取導致消耗的頻寬和流量也在增加,因此Trilegangers 也需要支付更高的伺服器費用。
目前Trilegangers 已經設定正確的robots.txt 檔案並透過Cloudflare 阻止GPTBot 和其他爬蟲包括位元組跳動的Bytespider 爬蟲的抓取,這應該可以臨時解決問題。