涉嫌違規抓取網站資料亞馬遜AWS調查Perplexity AI

2024-06-29 Comments 0 Comment

根據多家外媒消息，亞馬遜網路服務（AWS）已正式對人工智慧搜尋新創公司Perplexity AI展開調查，起因是後者被指控未經網站所有者同意，使用託管在AWS伺服器上的爬蟲程式抓取數據，且涉嫌違反robots.txt排除協議。

robots.txt協定作為一種網路標準，由網站管理員設置，旨在告知網路爬蟲哪些頁面可以被訪問，哪些則禁止抓取。儘管遵守該協議是自願的，但長期以來，各大搜尋引擎和知名公司的爬蟲程序普遍遵循這一標準。然而，近期有指控稱，Perplexity AI的爬蟲程序卻選擇了忽視。

根據《Wired》雜誌的報導，其調查團隊發現了一台託管在AWS伺服器上的虛擬機，該機器使用的IP位址為44.221.181.252，在過去三個月內多次存取並抓取了Condé Nast旗下資產的內容，包括《Wired》雜誌本身。此外，《衛報》、《富比士》和《紐約時報》等媒體也報告了類似情況，指出該IP位址多次存取其出版物內容。

為驗證Perplexity AI是否確實在抓取內容，《Wired》雜誌將文章標題或簡短描述輸入Perplexity的聊天機器人進行測試。結果顯示，聊天機器人回傳的內容與原文措辭高度相似，且引用極少，進一步加劇了對其違規行為的質疑。

面對指控，Perplexity AI方面表示已回應亞馬遜的詢問，並否認其爬蟲程序故意繞過robots.txt協議。該公司發言人Sara Platnick強調，PerplexityBot在AWS上運行時尊重robots.txt文件，並確認公司控制的服務不會違反AWS服務條款進行爬蟲活動。然而，她也承認，在特定情況下，即使用者輸入特定URL時，PerplexityBot會忽略robots.txt協定。

Perplexity AI執行長Aravind Srinivas則指出，公司確實使用了第三方網路爬蟲程序，而Wired所辨識的違規爬蟲可能正是其中之一。他否認公司“無視機器人排除協議並就此撒謊”，但承認公司在數據處理和引用來源方面存在改進空間。

值得注意的是，路透社最近的一份報告指出，Perplexity AI並非唯一一家繞過robots.txt檔案收集內容以訓練大型語言模型的人工智慧公司。然而，亞馬遜的調查目前似乎僅針對Perplexity AI展開。

亞馬遜發言人向《連線》雜誌表示，AWS服務條款明確禁止客戶使用其服務進行任何非法活動，且客戶有責任遵守條款和所有適用法律。此次調查旨在確認Perplexity AI是否有違規行為，並根據調查結果採取相應措施。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

涉嫌違規抓取網站資料亞馬遜AWS調查Perplexity AI

2024-06-29 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆