小紅書禁止所有搜尋引擎抓取其內容只能透過站內手動搜索

2024-03-30 Comments 0 Comment

百度搜尋目前已經收錄小紅書網站上7 億9,807 萬個網頁，Google則只索引了小紅書網站的首頁，為什麼呢？因為小紅書早已禁止所有搜尋引擎抓取小紅書的內容。小紅書的robots.txt 檔案已經明確禁止所有搜尋引擎抓取內容，不過藍點網檢索後發現實際上小紅書是在2023 年4 月2 日修改robots.txt 檔案的，轉眼間這都修改了1 年。

目前並不清楚小紅書為何禁止搜尋引擎抓取內容，從SEO 角度來說，允許搜尋引擎抓取有助於為小紅書帶來更多流量，畢竟現在百度都索引了7 億多個網頁。

而且小紅書是去年4 月修改的，所以估計也不是因為防止被抓取內容訓練AI 吧？但小紅書目前的內容庫拿去訓練AI 確實很有價值，畢竟巨量文字和圖片內容。

不過robots.txt 檔案只是君子協定，屬於防君子不妨小人的那種，除了會導致用戶無法從搜尋引擎直接查詢小紅書內容外，其實幫助也不大，畢竟其他非搜尋引擎的爬蟲也會繼續抓取內容，小紅書肯定也做了反爬措施了。

現在國內的網站禁止搜尋引擎抓取已經是個很常見的事情，或者專門預留一些層級目錄供搜尋引擎抓取想要獲得一些流量，更有甚者甚至別說搜尋引擎了，就連正常的用戶訪問也會被攔截，必須註冊帳號登入後才能繼續訪問，這顯然不是一個好事情。

附小紅書2023 年4 月2 日的robots.txt 資訊：

以下是小紅書最新的robots.txt 資訊：

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

小紅書禁止所有搜尋引擎抓取其內容只能透過站內手動搜索

2024-03-30 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆