Meta部署新網路爬蟲機器人為其AI模型收集大量數據
近日,Meta悄悄地發布了一款新的網路爬蟲,用於搜尋網路並收集大量數據,為其人工智慧模型提供支援。據三家追蹤網頁抓取器的公司稱,Meta新網路爬蟲機器人Meta External Agent於上月推出,類似於OpenAI的GPTBot,可以抓取網路上的人工智慧訓練數據,例如新聞文章中的文字或線上討論群組中的對話。
根據使用檔案歷史記錄顯示,Meta確實在7月底更新了一個面向開發者的公司網站,其中一個標籤顯示了新爬蟲的存在,但Meta至今還沒有公開宣布其新爬蟲機器人。
Meta的Llama是最大的llm之一,雖然該公司沒有透露最新版本的模型Llama 3使用的訓練數據,但其初始版本的模型使用了由Common Crawl等其他來源收集的大型數據集。
今年早些時候,Meta的聯合創始人、首席執行官馬克·祖克柏(Mark Zuckerberg)在一次財報電話會議上曾吹噓說,該公司的社交平台已經積累了一套用於人工智慧訓練的數據集,甚至「超過了Common Crawl」。
新爬蟲的存在表明Meta龐大的資料庫可能已經不夠用了,因為該公司繼續致力於更新Llama和擴展Meta AI,通常需要新的和高品質的培訓數據來不斷改進功能。
來自Dark Visitors的數據顯示,全球近25%的最受歡迎的網站現在已封鎖了GPTBot,但只有2%的網站封鎖了Meta的新爬蟲機器人。