ChatGPT網路搜尋功能使用微軟必應搜尋技術爬蟲名稱為OAI-SearchBot
早期OpenAI 推出ChatGPT Search 網路搜尋功能,該功能本質上也屬於搜尋引擎因此與Google搜尋有著直接競爭關係。關於資料收集方面OpenAI 採用的是兩方面措施,一方面搜尋技術使用微軟必應,另一方面OpenAI 也在自己抓取內容,所有資料被抓取後將按照特定演算法排序以便在ChatGPT 中向用戶返回結果。
OpenAI 並未在博客中透露搜索技術使用的是微軟必應,不過其工程師在Reddit 論壇中確認確實使用了必應搜索,因此對站長來說如果想要通過ChatGPT 獲得搜索流量,也要針對必應搜尋進行SEO 優化。
爬蟲方面目前OpenAI 共有3 種不同的爬蟲:
GPTBot:用於從網路上抓取資料訓練OpenAI 的人工智慧模型,該爬蟲可以屏蔽不會影響到網站的搜尋流量;
ChatGPT-User:用於在使用者提問時從網路上檢索資料以標註來源鏈接,該爬蟲本身不會抓取網頁資訊;
OAI-Search:這是OpenAI 用於ChatGPT Search 搜尋功能的爬蟲,專門用於抓取網路資料但不會將資料用於AI 模型訓練。
對網站來說如果不想自己的內容被抓取用於訓練AI 但又不想損失來自ChatGPT Search (儘管目前可能極少),那就可以屏蔽GPTBot 而允許OAI-Search 爬蟲。
關於OAI-Search 爬蟲的更多資訊:
預設 UA:Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko);相容的; OAI-SearchBot/1.0; +https://openai.com/searchbot
IP 位址:20.42.10.176/28、172.203.190.128/28、51.8.102.0/24
為防止惡意爬蟲冒充OAI-Search 抓取數據,你可以對爬蟲IP 位址進行校驗,如果爬蟲IP 位址不再上述IP 段內均為假冒爬蟲,可以直接將其IP 屏蔽。