就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?
前天看到一個帖子說, 在Google和 Bing 能搜到微信公眾號的文章了。 怎麼可能。 嚯,要這樣下去,在百度里搜微信文章是不是也快了? 想必很多網友應該都挺期待這件事的。 畢竟有時候搜資料,在百度和微信之間切來切去還挺麻煩的。 誰想到還沒樂呵夠,騰訊馬上就闢謠了:
是公眾號的 robots 協議出現漏洞,讓搜索平臺的爬蟲爬到了,現在已經修復了。
嗐,搞半天白高興一場。
不過,今天還是想就這個 robots 協定和大家探討一下。
因為說起來你可能不信,我們在百度里前搜不到公眾號文章,后搜不到淘寶商品,都是因為 robots 協定。
robots 協定其實很簡單,就是一個放在網站根目錄的文本,它寫明瞭搜尋引擎可以/不可以收錄哪些資訊。
微信公眾號的 robots 協定 ▼
有人可能會說,原來就是這幾行字害得互聯網不能互聯了?
不不,這鍋 robots 協定可不背。
robots 協定原本只是説明搜尋引擎更高效地收錄資訊,只不過現在人們用著用著逐漸變了味。
這事還得從上世紀 90 年代初期說起。
在搜尋引擎誕生之前,人們要查資料,只能一個個進入相關網頁,效率非常低下。
後來有了搜尋引擎,搜尋引擎通過釋放網路爬蟲( 也可以叫蜘蛛 ),抓取各個網頁裡的資訊,並把這些資訊收錄起來供大家查詢,這才極大提高了人們的效率。
但是,那會爬蟲就跟小黑胖一樣,抓取資訊來完全不挑食。
不管是沒用的垃圾資訊,還是網站重要的內部數據,不分青紅皂白地一頓亂抓,全都要。
這種粗暴的抓法不僅降低了使用者搜到有用資訊的效率,還會讓網頁的重要數據洩露,伺服器過載無法運行。
所以在 1994 年初,荷蘭有位網路工程師提出了 robots 協定。
就好比賓館房間門上掛著的” 請勿打擾 “,” 歡迎打掃 “牌子,告訴阿姨哪些房間是可以打掃的。
每個網站的根目錄下也擺著一份 robots 協定,協議里告訴爬蟲:哪些東西你可以抓,哪些東西你不能抓。
雖說這個 robots 協定目前還沒被任何國際組織採納,沒有制約性,只能算個君子協定:你不聽,就不是個正人君子。
但它畢竟為了説明搜索爬蟲 更有效地抓取對使用者有用的資訊,更好促進信息共用。
所以在國外不管是早期的altavista還是後來的Google、必應,大家也都遵守著這一套協定。
同樣 2012 年 11 月中國互聯網協會發佈了《互聯網搜尋引擎服務自律公約 》,也規定了:
搜尋引擎要遵守網站的robots協定,但前提是這個robots協定是合理的。
這個公約對 12 家發起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、網易、新浪等。
圖源百度百科 ▼
如今絕大多數 搜尋引擎的爬蟲在訪問網站時,第一件事就先讀下網站的 robots 協定。
在瞭解哪些資訊是可以抓取之後,才會行動。
比如淘寶的 robots 協定,雖然只有簡單的 4 行字,但寫明瞭:百度爬蟲 ( Baiduspider ) 不允許 ( Disallow ) 抓取任何內容 ( / ) 。
百度爬蟲過來看到協定后,就算心裡難受,也只能啥也不碰馬上離開。
那可能有人說,這既然是君子協定,會不會有人不當” 君子 “呢?
當然有,robots 協定只相當於一個告知書,爬蟲 ( 背後的人 )可以不聽你的。
和大家說兩個違背robots協定的例子。
第一個例子是 BE 和 eBay 的糾紛。
BE 是一個提供拍賣資訊的聚合網站。 它利用爬蟲抓取 eBay 等拍賣網站的商品資訊,然後放在自己網站上賺取流量。
儘管 eBay 早已寫好了 robots 協定,告訴 BE 爬蟲不準抓取任何內容。
但 BE 認為這類拍賣資訊都是大眾上傳的,eBay 設置 robots 協定不讓自己抓取,不合理啊。
後來法院經過多方調查取證, 認為 ebay 網站上內容屬於私有財產,它用 robots 協議保護私有財產是合理的。
最後認定 BE 侵權。
想必大家能看出來,法院判定結果並不是單純看有沒有違背robots 協定,最主要還得看這個robots 協定合不合理。
同樣,還有個例子也證明瞭這點。
大部分人都知道 3Q 大戰,但可能沒聽過 360 和百度的” 3B 大戰 “。
2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內容 (百度知道,貼吧 )並以快照的形式提供給使用者。
但是,百度的 robots 協定寫明瞭只有部分搜尋引擎可以抓取,當中沒包括 360 搜索。
也就是說 360 違背了百度 robots 協定。
圖源百度百科 ▼
後來百度想了一個法子,只要在 360 搜索中搜到百度相關網站,點擊後就會跳轉到百度搜尋引擎網站。
再到後來他們鬧上了法庭。
這件事去年才算正式結案,判決書大概有一萬多字吧,可看了好一會。
不管是 360 把百度快照提供給使用者,還是百度的跳轉措施,這些操作法院都進行了相應的判決,但是跟我們文章沒太大關係。
只在這裡說下:對於 360 搜索違背百度 robots 協定的抓取行為,是怎麼判定的。
首先 360 在 2012 年 8 月違背 robots 協定是有不合理在先,但是同年 11 月發佈了《 自律條約 》。
條約可是規定了robots 協定限制搜尋引擎得有正當理由:比如為了保護敏感資訊、公眾利益或者維持網站正常運行。
但百度限制 360 搜尋抓取的內容,既不是重要敏感資訊,被抓取了也不會讓百度不能運行了或者損害了公共利益。 。
這就可以判定百度沒有正當理由拒絕 360 抓取, 360 的抓取行為也並非不正當競爭行為。
所以啊,不是寫了 robots 協定就一定在理,你這個協定首先得合理才行。
但關鍵是,這個合理的界限有時候不是很好定。
比如現在不少互聯網公司用 robots 協定阻止搜尋引擎收錄,限制了資訊分享。
你說他們是在合理設置 robots 也沒錯,畢竟是為了保護自己的數據權益。
但這是不是和互聯網的初衷背道而馳了呢。
就拿自己經歷來講。
之前寫個反詐騙的文章,百度查了大半天資料不夠,差點放棄。 後來在微信里搜,才在一家公眾號文章上找到相關資料。 最後要找視頻作為動圖素材,我又跑去短視頻平臺。
要知道曾幾何時,我們明明可以很輕易的查詢到資訊,現在因為各大網站的 robots 協議變成了如此困難。
更諷刺的是, robots 協定原本做出來只是為了提高爬蟲效率,更好地促進資訊流動的。
這是不是有點變味了。