Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

被AI爬蟲擠爆伺服器後維基百科點了投降

被AI爬蟲擠爆伺服器後維基百科點了投降

2025-04-29 Comments 0 Comment

說到維基百科,大家都不陌生。光在負評的資料來源裡,你就能經常看到它。世超每次寫那些帶點歷史的、科普性質的文章時,就會查維基百科的解釋,完了再順著底部的參考資料挖一挖,能延伸出更多資訊點。可以說,維基百科是一般人理解一個概念,最便捷也最權威的方式之一。

維基百科的營運機構,是一個叫做維基媒體的非營利組織。組織旗下除了有維基百科,還有維基共享資源,維基字典,維基教科書等項目。

這些項目都是免費給大家用的,因為維基媒體的核心價值就是讓知識自由獲取和分享。

但最近,維基媒體真的被 AI公司們鬧麻了。

這些公司為了訓練大模型,派了無數個 AI爬蟲源源不斷爬取維基媒體上面的資料。

但說起來你可能不信:維基媒體居然沒告這些 AI公司,而是選擇了——

主動上交。

“各位大哥,我把資料都整理好了,你們別爬了行不。”

前段時間,維基媒體把英文、法文的維基百科內容託管在社群平台Kaggle,告訴那些AI 公司,要資源自取。

光給資源還不行,維基還要服務好這些大哥,專門把資料針對 AI模型的口味優化了一遍。

因為機器和人類不一樣,我們看起來清晰直覺的頁面,他們還需要多動點腦子,來判斷每個部分是啥。

所以維基就把頁面做成了JSON 格式的結構化內容,那些標題、摘要、解釋都按照統一格式分好。

這樣AI 在查看時更容易讀懂每一段的內容和數據,從而降低了AI 公司的成本。

這一波啊,這一波屬於是為了保護老巢不被沖垮,維基給狼群做了一盤美味的肉,扔在了別的地方。

世超覺得,維基這麼做真挺無奈的。

早在4 月1 號時,他們已經發過部落格吐槽了:從2024 年以來,平台用來下載多媒體內容的流量增加了50%。

本來以為是大家更愛學習了,結果一查發現全TM 是AI 公司的爬蟲類。爬蟲們源源不絕地把資源爬回去,然後拿去訓練大模型。

爬蟲對維基的影響,還真挺大的。

因為維基媒體在全球有多個區域資料中心(歐洲、亞洲、南美洲等)和一個核心資料中心(美國維吉尼亞州阿什本)。

核心資料中心存所有的資料,而區域資料中心會暫時快取一些熱門詞條。

這麼做好處是啥呢?

例如最近很多亞洲人在查「 Speed 」這個詞,那「 Speed 」就會被快取到亞洲的區域資料中心。

這樣後來的亞洲網友查看「 Speed 」時,這些數據就會走同城快遞,從亞洲資料中心出發,不用再從美國的資料中心走國際物流了。

這高頻詞條走廉價通道,低頻詞條走高價通道的辦法,不光提高了各個區域用戶的載入速度,也降低了維基媒體的伺服器壓力。

但問題是: AI 管你這的那的?只要是個字條,它都要訪問,而且批量性訪問。

這就導致不斷有流量走高價通道。

前段時間維基媒體發現,那些走美國資料中心的高成本流量,居然有65% 都是AI 爬蟲糟蹋的。

要知道維基是免費的,但它的伺服器不是,每年都有300 萬美元託管成本。

不過吐槽可能沒啥用,所以幾週後維基媒體選擇把資源整理出來,託管在其他平台,讓AI 公司自取。

其實不光是維基百科,從內容平台到開源項目,從個人播客到媒體網站大家都遇到類似問題。

去年夏天,iFixit 老闆就在Twitter上吐槽Claude 的爬蟲在一天訪問了自家網站100 萬次…

看到這,你可能會說,不是一個有機器人協議robot.txt 麼,不想讓AI 爬蟲訪問自己的網站,可以把它寫進協議裡。

啊對,在ifixit 把Claude 爬蟲加到robots.txt 後,爬行確實暫停了下(變成了30分鐘一次)

在曾經的網路時代,robots 協議的確是個一勞永逸的技術,也有公司因為不遵守吃到了官司。

但擱現在,這個君子協議只能算紙老虎。

現在的大模型公司,能爬盡爬。

畢竟別家都在爬,你不爬,那你的語料庫就不如別人強大,大模型起跑線就會低人一等。

那咋辦——

給爬蟲換一個名字唄(user-agent)。你只說不讓魯迅爬,又不讓說不要讓週樹人爬。

有沒有大模型這麼無恥?可太多了。

之前就有reddit 網友明明在協議中禁止OpenAI 的爬蟲,結果對面改了下名字,繼續爬。

再例如perplexity 也被科技媒體WIRED 抓到,根本無視robots 協定。

這些年呢,大家也在嘗試各種新的辦法。

有人研究出在robots 協議中放一個壞死鏈接,但凡點進鏈接的一定是爬蟲,畢竟正常用戶是不會點擊這個協議。

也有人選擇借助Web 應用程式防火牆( WAF ),基於IP 位址、請求模式、行為分析綜合識別惡意爬蟲。

也有人決定要幫網站弄一套驗證碼。

但基本上這些辦法,往往道高一尺,魔高一丈。你抵抗越狠,AI 公司也會採取更殘暴的爬取手段。

所以賽博菩薩cloudflare 前段時間出了一套技術是監測到有惡意爬蟲,就索性讓爬蟲進來。

當然放它進來,不是給它好吃的,而是做了一道「錯飯」——

提供一串和被抓取網站無關的網頁,讓AI 在裡面慢慢看。

cloudflare 的操作還算是收斂著了。

今年1 月,有網友寫了一款更兇狠的工具,叫做Nepenthes 豬籠草。

和豬籠草殺死昆蟲一樣,「 豬籠草」將AI 爬蟲困在沒有出口連結的「 無限迷宮」 靜態文件中,讓它們抓不了真實內容。

不光如此,“ 豬籠草”還不斷向爬蟲投餵“ 馬可夫亂語”,來污染AI 的訓練資料。據說這個技術目前僅有OpenAI 的爬蟲能逃脫。

好好好,原來AI 攻防戰,在大模型訓練源頭就已經打響了。

當然了,平台們也可以和AI 公司達成協議。

例如Reddit 和Twitter都向AI 公司推出了收費套餐,每月使用多少API、存取多少推文,我就收你多少錢。

也有沒談成還打起官司的。例如《紐約時報》商量無果後,就起訴了OpenAI 抓取自家文章。

看到這你可能會好奇:為什麼維基百科不告這些AI 爬蟲?

世超猜測,這可能和維基百科本身有關。

維基百科的授權協議非常開放。

它大部分內容是允許任何人( 包括AI 公司)在遵守署名和相同協議共享的條件下,自由地使用、複製、修改和分發。

所以從法律角度來看,AI 公司抓取、使用維基百科的資料進行模型訓練,大機率還是合法的。

而且就算把AI 公司告上法庭,但現在業界也沒有對AI 侵權這塊有個明確的法律界線。這種風險大、成本高、消耗時間久的選擇,對維基媒體來說,並不切實際。

最主要的是,維基媒體的使命就是──讓地球上的每個人都能自由地獲得所有知識。

雖然AI 爬蟲帶來的伺服器成本是一個問題,但透過法律手段或商業協議,來限制別人取得資源,或許和他們的使命相違背吧。

照這麼來看,維基媒體選擇把資料整理好,給AI 公司拿去訓練,也許是最合適,但也最無奈的辦法吧。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
全球首艘高速可潛無人艇下水能在水底潛伏1個多月
NEXT
Nothing 推出其最薄、最輕的智慧型手機CMF Phone 2 Pro

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 4 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
282930  
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 索尼又鎖區過百國家無法遊玩《星刃》 2025-05-16
  • 育碧將下架多款經典遊戲公司稱其有權這麼做 2025-05-16
  • 川普急簽中東AI大單惹惱對華強硬派 2025-05-16
  • 美教授AI講義漏洞百出大學生怒討8000美元學費 2025-05-16
  • 奧特曼嘲諷馬斯克AI翻車:追求真相的AI卻在輸出陰謀論 2025-05-16
  • 東南亞人群基因體研究領域取得里程碑突破 2025-05-16
  • 雷軍最新演講曝光:一場意外給小米帶來巨大質疑不再是產業新人 2025-05-16
  • “中東矽谷”?美國、阿聯酋宣布將聯手打造5吉瓦超級AI園區 2025-05-16
  • Google One訂閱服務的用戶數量達1.5億 2025-05-16
  • 巴菲特第一季大幅減持銀行股蘋果仍是最大重倉股 2025-05-16

熱門文章與頁面︰

  • 三星20000尼特微型OLED推動VR頭顯亮度達到日光級別
  • 您可以在Windows 11 24H2 中找回WordPad
  • 南極冰蓋數十年來首次成長
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • OpenAI的GPT-4可透過閱讀安全公告自主利用真實漏洞
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • A24新片《遺軍之戰》 取自門多薩的戰爭回憶
  • 不只員工違規事件蘋果與米哈遊的關係越來越脆弱了
  • 小米手機開始限制跨區解鎖BL 國行版設備禁止使用國際帳號申請解鎖

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.