就因為微信誤刪了幾行字公眾號文章能被別家搜到了？

2021-10-25 Comments 0 Comment

前天看到一個帖子說，在Google和 Bing 能搜到微信公眾號的文章了。怎麼可能。嚯，要這樣下去，在百度里搜微信文章是不是也快了？想必很多網友應該都挺期待這件事的。畢竟有時候搜資料，在百度和微信之間切來切去還挺麻煩的。誰想到還沒樂呵夠，騰訊馬上就闢謠了：

是公眾號的 robots 協議出現漏洞，讓搜索平臺的爬蟲爬到了，現在已經修復了。

嗐，搞半天白高興一場。

不過，今天還是想就這個 robots 協定和大家探討一下。

因為說起來你可能不信，我們在百度里前搜不到公眾號文章，后搜不到淘寶商品，都是因為 robots 協定。

robots 協定其實很簡單，就是一個放在網站根目錄的文本，它寫明瞭搜尋引擎可以/不可以收錄哪些資訊。

微信公眾號的 robots 協定 ▼

有人可能會說，原來就是這幾行字害得互聯網不能互聯了？

不不，這鍋 robots 協定可不背。

robots 協定原本只是説明搜尋引擎更高效地收錄資訊，只不過現在人們用著用著逐漸變了味。

這事還得從上世紀 90 年代初期說起。

在搜尋引擎誕生之前，人們要查資料，只能一個個進入相關網頁，效率非常低下。

後來有了搜尋引擎，搜尋引擎通過釋放網路爬蟲（也可以叫蜘蛛），抓取各個網頁裡的資訊，並把這些資訊收錄起來供大家查詢，這才極大提高了人們的效率。

但是，那會爬蟲就跟小黑胖一樣，抓取資訊來完全不挑食。

不管是沒用的垃圾資訊，還是網站重要的內部數據，不分青紅皂白地一頓亂抓，全都要。

這種粗暴的抓法不僅降低了使用者搜到有用資訊的效率，還會讓網頁的重要數據洩露，伺服器過載無法運行。

所以在 1994 年初，荷蘭有位網路工程師提出了 robots 協定。

就好比賓館房間門上掛著的” 請勿打擾 “，” 歡迎打掃 “牌子，告訴阿姨哪些房間是可以打掃的。

每個網站的根目錄下也擺著一份 robots 協定，協議里告訴爬蟲：哪些東西你可以抓，哪些東西你不能抓。

雖說這個 robots 協定目前還沒被任何國際組織採納，沒有制約性，只能算個君子協定：你不聽，就不是個正人君子。

但它畢竟為了説明搜索爬蟲更有效地抓取對使用者有用的資訊，更好促進信息共用。

所以在國外不管是早期的altavista還是後來的Google、必應，大家也都遵守著這一套協定。

同樣 2012 年 11 月中國互聯網協會發佈了《互聯網搜尋引擎服務自律公約》，也規定了：

搜尋引擎要遵守網站的robots協定，但前提是這個robots協定是合理的。

這個公約對 12 家發起單位生效，成員包括百度、騰訊、奇虎 360、搜狗、網易、新浪等。

圖源百度百科 ▼

如今絕大多數搜尋引擎的爬蟲在訪問網站時，第一件事就先讀下網站的 robots 協定。

在瞭解哪些資訊是可以抓取之後，才會行動。

比如淘寶的 robots 協定，雖然只有簡單的 4 行字，但寫明瞭：百度爬蟲 （ Baiduspider ） 不允許 （ Disallow ） 抓取任何內容 （ / ） 。

百度爬蟲過來看到協定后，就算心裡難受，也只能啥也不碰馬上離開。

那可能有人說，這既然是君子協定，會不會有人不當” 君子 “呢？

當然有，robots 協定只相當於一個告知書，爬蟲（背後的人）可以不聽你的。

和大家說兩個違背robots協定的例子。

第一個例子是 BE 和 eBay 的糾紛。

BE 是一個提供拍賣資訊的聚合網站。它利用爬蟲抓取 eBay 等拍賣網站的商品資訊，然後放在自己網站上賺取流量。

儘管 eBay 早已寫好了 robots 協定，告訴 BE 爬蟲不準抓取任何內容。

但 BE 認為這類拍賣資訊都是大眾上傳的，eBay 設置 robots 協定不讓自己抓取，不合理啊。

後來法院經過多方調查取證，認為 ebay 網站上內容屬於私有財產，它用 robots 協議保護私有財產是合理的。

最後認定 BE 侵權。

想必大家能看出來，法院判定結果並不是單純看有沒有違背robots 協定，最主要還得看這個robots 協定合不合理。

同樣，還有個例子也證明瞭這點。

大部分人都知道 3Q 大戰，但可能沒聽過 360 和百度的” 3B 大戰 “。

2012 年 8 月 360 搜索剛上線，它抓取了百度旗下的內容（百度知道，貼吧）並以快照的形式提供給使用者。

但是，百度的 robots 協定寫明瞭只有部分搜尋引擎可以抓取，當中沒包括 360 搜索。

也就是說 360 違背了百度 robots 協定。

圖源百度百科 ▼

後來百度想了一個法子，只要在 360 搜索中搜到百度相關網站，點擊後就會跳轉到百度搜尋引擎網站。

再到後來他們鬧上了法庭。

這件事去年才算正式結案，判決書大概有一萬多字吧，可看了好一會。

不管是 360 把百度快照提供給使用者，還是百度的跳轉措施，這些操作法院都進行了相應的判決，但是跟我們文章沒太大關係。

只在這裡說下：對於 360 搜索違背百度 robots 協定的抓取行為，是怎麼判定的。

首先 360 在 2012 年 8 月違背 robots 協定是有不合理在先，但是同年 11 月發佈了《自律條約》。

條約可是規定了robots 協定限制搜尋引擎得有正當理由：比如為了保護敏感資訊、公眾利益或者維持網站正常運行。

但百度限制 360 搜尋抓取的內容，既不是重要敏感資訊，被抓取了也不會讓百度不能運行了或者損害了公共利益。。

這就可以判定百度沒有正當理由拒絕 360 抓取， 360 的抓取行為也並非不正當競爭行為。

所以啊，不是寫了 robots 協定就一定在理，你這個協定首先得合理才行。

但關鍵是，這個合理的界限有時候不是很好定。

比如現在不少互聯網公司用 robots 協定阻止搜尋引擎收錄，限制了資訊分享。

你說他們是在合理設置 robots 也沒錯，畢竟是為了保護自己的數據權益。

但這是不是和互聯網的初衷背道而馳了呢。

就拿自己經歷來講。

之前寫個反詐騙的文章，百度查了大半天資料不夠，差點放棄。後來在微信里搜，才在一家公眾號文章上找到相關資料。最後要找視頻作為動圖素材，我又跑去短視頻平臺。

要知道曾幾何時，我們明明可以很輕易的查詢到資訊，現在因為各大網站的 robots 協議變成了如此困難。

更諷刺的是， robots 協定原本做出來只是為了提高爬蟲效率，更好地促進資訊流動的。

這是不是有點變味了。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

就因為微信誤刪了幾行字公眾號文章能被別家搜到了？

2021-10-25 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆