研究人員發現ChatGPT可以在重複某些字詞的狀況下洩漏敏感訊息
谷歌的一組研究人員發現,OpenAI旗下的人工智慧聊天機器人ChatGPT可以洩露其訓練資料中的敏感訊息,例如真人的個人資訊。據悉,ChatGPT是OpenAI於2022年11月30日推出的新型AI聊天機器人工具,可根據用戶的要求快速產生文章、故事、歌詞、散文、笑話,甚至代碼,並回答各類問題。
在推出僅兩個月後,ChatGPT每月活躍的用戶數就達到了1億,成為史上成長最快的消費者應用程式之一。在今年11月6日舉行的OpenAI首屆開發者大會上,OpenAI CEO薩姆•奧爾特曼(Sam Altman)宣布,ChatGPT的周活躍用戶數已達到1億。
就像所有所謂的大語言模型(LLM)一樣,支援ChatGPT的底層機器學習模型也是使用從網路上抓取的大量資料來進行訓練的。但令人擔憂的是,一些被提取的訓練資料包含了真實人物的識別訊息,包括姓名、電子郵件地址和電話號碼。
谷歌的研究人員找到了一種方法,即透過要求ChatGPT「永遠」重複某些單詞,就讓ChatGPT透露了一些被用於訓練的數據,這些數據包括私人資訊(例如,個人姓名、電子郵件、電話號碼等)、研究論文和新聞文章的片段、維基百科頁面等等。
Google Brain的高級研究科學家Katherine Lee表示:「我們在7月發現了這個漏洞,並在8月30日通知了OpenAI,在標準的90天披露期之後,我們發布了這個漏洞。既然我們向OpenAI披露了這一點,現在的情況可能會有所不同。」研究人員表示,OpenAI在8月30日修補了這個漏洞。
外媒稱,Google研究人員發現的ChatGPT的漏洞引起了嚴重的隱私問題,特別是對於那些在包含敏感資訊的資料集上進行訓練的模型而言。