百度百科已封鎖Google/必應等大多數搜尋引擎估計也是怕內容被拿去訓練AI?
在此之前,知乎為了避免內容被其他公司抓取拿去訓練人工智慧,不惜屏蔽除百度和搜狗以外的所有搜尋引擎,甚至用戶存取都亂碼必須刷新頁面才能正常查看內容。不過也有網友注意到現在百度百科也開始採取類似措施,百度百科包含用戶撰寫的海量詞條內容,這些內容用於人工智慧訓練自然是個不錯的資料集。
所以現在百度百科也將Google和必應等大多數搜尋引擎都屏蔽掉,應該也是為了阻止這些搜尋引擎和其他爬蟲未經授權抓取百度百科的內容用於訓練人工智慧。
百度百科的robots.txt 檔案顯示,目前百度百科僅支援以下搜尋引擎抓取內容(類似白名單):
- 百度搜尋
- 搜狗搜索
- 中國搜尋(Chinaso)
- YYSpider (這是哪一家的爬蟲藍點網未查到)
- 宜搜搜索(EasouSpider,一個很老的搜索,以前不少用戶拿到它搜小說)
百度百科明確禁止抓取其內容的搜尋引擎爬蟲包括:
- 谷歌搜尋
- 必應搜尋
- 微軟MSN
- Yisouspider (阿里巴巴旗下UC 瀏覽器的爬蟲)
- 其他一切搜尋引擎
雖然360 搜尋沒有在封鎖清單中單獨列出,但百度百科的策略是禁止一切非白名單爬蟲抓取,所以360 搜尋和其他搜尋例如Yandex、Ecosia 等搜尋也都是被屏蔽的。
當然這裡的屏蔽只是君子協定,例如360 剛推出360 搜尋和360 百科時就未經百度授權抓取百度百科內容,被百度起訴後360 辯稱robots.txt 是業界的約定俗成。
所以百度百科現在封鎖這些搜尋引擎其實也只是防君子不防小人,肯定還有很多爬蟲透過各種方式繼續抓取內容然後拿去訓練AI。
話說回來,百度百科是根據維基百科的模式開發的,內容也都是用戶撰寫的,維基百科就允許任何搜尋引擎抓取並且允許將其資料拿去訓練AI,不得不說某度還是格局小了。