Cloudflare 正在將AI網路爬蟲引入“人工智慧迷宮”
全球最大的網路基礎設施公司之一Cloudflare 宣布推出AI Labyrinth,這是一款新工具,用於對抗未經許可從網站上抓取AI 訓練資料的網路爬蟲。該公司在一篇部落格文章中表示,當檢測到「不當的機器人行為」時,這款免費的可選工具會將爬蟲引誘到AI 生成的誘餌頁面的連結路徑上,這些頁面會「減慢、混淆並浪費」那些惡意行為者的資源。

網路長期以來一直使用基於 robots.txt 的榮譽系統方式來控制抓取,這是一個文字文件,用於授予或拒絕爬蟲程式的權限,但人工智慧公司(甚至是Anthropic和Perplexity AI等知名公司)被指責忽視了它。 Cloudflare 寫道,它每天會收到超過500 億個網路爬蟲請求,儘管它有工具來發現和阻止惡意請求,但這往往會促使攻擊者在「永無止境的軍備競賽」中改變策略。
Cloudflare 表示,AI Labyrinth 不會攔截機器人,而是透過讓它們處理與特定網站的實際資料無關的資料來進行反擊。該公司表示,它還可以充當“下一代蜜罐”,吸引人工智慧爬蟲不斷跟踪虛假頁面的鏈接,而普通人則不會這樣做。它表示,這使得Cloudflare 的惡意行為者清單中更容易識別惡意機器人,以及識別它原本無法偵測到的「新機器人模式和簽章」。根據該帖子,這些連結不對人類訪客可見。

您可以在Cloudflare 的部落格上閱讀有關AI Labyrinth 如何運作的更多資訊:
https://blog.cloudflare.com/ai-labyrinth
這裡有來自該帖子的更多詳細資訊:
我們發現,先生成一組多樣化的主題,然後為每個主題創建內容,可以產生更多樣化和令人信服的結果。對我們來說,重要的是不要產生不準確的內容,以免助長網路上錯誤訊息的傳播,因此我們產生的內容是真實的並且與科學事實相關,只是與被抓取的網站不相關或不是專有的。
網站管理員可以選擇使用AI Labyrinth,方法是導航到其網站Cloudflare 儀表板設定的「機器人管理」部分並啟用它。該公司表示,這「只是使用生成式AI 阻止機器人的第一次迭代」。


Cloudflare計劃創建“整個連結URL 網路”,機器人最終進入其中時將很難判斷為假的。正如Ars Technica指出的那樣,AI Labyrinth 聽起來類似於Nepenthes,後者是一種旨在讓爬蟲在AI 生成的垃圾資料地獄中「數月」處於擱置狀態的工具。