Cloudflare開始免費提供阻止AI機器人的一鍵式解決方案
越來越多的人認為,生成式人工智慧有可能使開放網路變得比以前更糟。目前,所有大型科技公司和人工智慧新創公司都依賴從網路上抓取所有原創內容來訓練其人工智慧模型。問題是,絕大多數網站對此並不感冒,也沒有給予許可。不過,問問微軟人工智慧執行長就知道了,他認為開放網路上的內容本來就該免費抓取。
就在上週,Akamai 的一份報告再次證實,機器人在整個網路流量中的佔比非常大,人工智慧讓網路犯罪分子和不誠實的企業更容易得手。
使用Cloudflare 提供的內容交付和防火牆服務的網站和內容創作者現在又多了一個簡單易用的解決方案,可以遏制大科技公司在沒有明確授權的情況下釋放機器人和採集網站內容的能力。
大多數流行的人工智慧公司(如OpenAI)已經開始提供一種方法,透過在伺服器上的robots.txt 檔案中添加自訂規則來阻止爬行機器人。然而,這些解決方案只有在機器人被設計為真正遵守這些規則時才會起作用–問題在於:1)並非所有公司都願意遵守robots.txt 指令;2)許多人工智慧公司在提供這種」選擇退出”之前就已經放棄了一切可能–Cloudflare 表示,其絕大多數客戶(多達85%)已經選擇以這種方式阻止人工智慧機器人。
Cloudflare 提供的新一鍵解決方案既適用於免費客戶,也適用於付費客戶,它似乎可以有效打擊不遵守robots.txt 規則的人工智慧機器人。 Cloudflare 可以識別機器人,並為每個機器人創建單獨的指紋,而且它發誓會隨著時間的推移自動更新其指紋資料庫。
作為網路上最大的CDN 網路之一,Cloudflare 可以從平均每秒超過5700 萬次的網路請求中推斷出數據。
該公司列出了一份當今網路上最活躍的人工智慧機器人名單,其中Bytespider、GPTBot 和ClaudeBot 是訪問量最大的三個機器人。 Bytespider 由中國公司和TikTok 所有者位元組跳動運營,很可能使用從40% 受Cloudflare 保護的網站上抓取的內容來訓練其大型語言模型。
GPTBot 正在造訪35% 的網站,並收集資料用於訓練ChatGPT 和OpenAI 提供的其他生成式人工智慧服務。 Cloudflare 表示,ClaudeBot 最近的請求量增加了11%,並用於訓練Anthropic 開發的同名LLM 演算法係列。
雖然透過靜態分析可以更輕鬆地識別這些眾所周知的機器人,但Cloudflare 還可以偵測到假裝成真人瀏覽網頁的機器人。
該公司開發了自己的全球機器學習模型,基本上是利用人工智慧技術來識別假裝成其他東西的人工智慧機器人。 Cloudflare表示,其模型能夠”適當標記”來自躲避性人工智慧機器人的流量,未來將用於檢測新的刮擦工具和假冒機器人,而無需先生成新的機器人指紋。