Meta部署新網路爬蟲機器人為其AI模型收集大量數據

2024-08-21 Comments 0 Comment

近日，Meta悄悄地發布了一款新的網路爬蟲，用於搜尋網路並收集大量數據，為其人工智慧模型提供支援。據三家追蹤網頁抓取器的公司稱，Meta新網路爬蟲機器人Meta External Agent於上月推出，類似於OpenAI的GPTBot，可以抓取網路上的人工智慧訓練數據，例如新聞文章中的文字或線上討論群組中的對話。

根據使用檔案歷史記錄顯示，Meta確實在7月底更新了一個面向開發者的公司網站，其中一個標籤顯示了新爬蟲的存在，但Meta至今還沒有公開宣布其新爬蟲機器人。

Meta的Llama是最大的llm之一，雖然該公司沒有透露最新版本的模型Llama 3使用的訓練數據，但其初始版本的模型使用了由Common Crawl等其他來源收集的大型數據集。

今年早些時候，Meta的聯合創始人、首席執行官馬克·祖克柏(Mark Zuckerberg)在一次財報電話會議上曾吹噓說，該公司的社交平台已經積累了一套用於人工智慧訓練的數據集，甚至「超過了Common Crawl」。

新爬蟲的存在表明Meta龐大的資料庫可能已經不夠用了，因為該公司繼續致力於更新Llama和擴展Meta AI，通常需要新的和高品質的培訓數據來不斷改進功能。

來自Dark Visitors的數據顯示，全球近25%的最受歡迎的網站現在已封鎖了GPTBot，但只有2%的網站封鎖了Meta的新爬蟲機器人。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Meta部署新網路爬蟲機器人為其AI模型收集大量數據

2024-08-21 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆