小紅書禁止所有搜尋引擎抓取其內容只能透過站內手動搜索
百度搜尋目前已經收錄小紅書網站上7 億9,807 萬個網頁,Google則只索引了小紅書網站的首頁,為什麼呢?因為小紅書早已禁止所有搜尋引擎抓取小紅書的內容。小紅書的robots.txt 檔案已經明確禁止所有搜尋引擎抓取內容,不過藍點網檢索後發現實際上小紅書是在2023 年4 月2 日修改robots.txt 檔案的,轉眼間這都修改了1 年。
目前並不清楚小紅書為何禁止搜尋引擎抓取內容,從SEO 角度來說,允許搜尋引擎抓取有助於為小紅書帶來更多流量,畢竟現在百度都索引了7 億多個網頁。
而且小紅書是去年4 月修改的,所以估計也不是因為防止被抓取內容訓練AI 吧?但小紅書目前的內容庫拿去訓練AI 確實很有價值,畢竟巨量文字和圖片內容。
不過robots.txt 檔案只是君子協定,屬於防君子不妨小人的那種,除了會導致用戶無法從搜尋引擎直接查詢小紅書內容外,其實幫助也不大,畢竟其他非搜尋引擎的爬蟲也會繼續抓取內容,小紅書肯定也做了反爬措施了。
現在國內的網站禁止搜尋引擎抓取已經是個很常見的事情,或者專門預留一些層級目錄供搜尋引擎抓取想要獲得一些流量,更有甚者甚至別說搜尋引擎了,就連正常的用戶訪問也會被攔截,必須註冊帳號登入後才能繼續訪問,這顯然不是一個好事情。
附小紅書2023 年4 月2 日的robots.txt 資訊:
以下是小紅書最新的robots.txt 資訊: