Meta的新AI助理將根據Facebook和Instagram上的公開貼文進行訓練

Meta Platforms高層在接受路透社採訪時表示，該公司使用Facebook和Instagram上的公開帖子來訓練其新型Meta人工智慧虛擬助理的部分功能，但排除了只與家人和朋友分享的私人帖子，以努力尊重消費者的隱私。

Meta公司全球事務總裁尼克-克萊格（Nick Clegg）在本週舉行的公司年度連接會議（Connect conference）間隙表示，Meta公司也沒有將其訊息服務上的私人聊天作為模型的訓練數據，並採取措施從用於訓練的公共資料集中過濾私人細節。

克雷格說：”我們已經嘗試排除那些個人資訊佔絕大多數的資料集，”他補充說，Meta 用於培訓的”絕大多數”數據都是公開的。

他以LinkedIn 為例指出，出於隱私考慮，Meta 有意不使用該網站的內容。

在克雷格發表上述評論之際，包括Meta、OpenAI和Alphabet旗下Google在內的科技公司因未經許可使用從互聯網上採集的資訊來訓練它們的人工智慧模型而飽受批評。

這兩家公司正在權衡如何處理在這一過程中他們的人工智慧系統可能複製的私人或受版權保護的資料，同時還要面對作者指控他們侵犯版權的訴訟。

執行長馬克-祖克柏（Mark Zuckerberg）週三在Meta公司的年度產品會議”Connect”上發布了該公司首批面向消費者的人工智慧工具，Meta AI是其中最重要的產品。今年的會議主要討論人工智慧，而不像以往的會議主要關注擴增實境和虛擬實境。

Meta表示，該助手使用了一個基於強大的Llama 2大型語言模型的定制模型，該模型已於今年7月公開用於商業用途，同時還使用了一個名為Emu的新模型，該模型可根據文本提示生成圖像。

該產品將能產生文字、音訊和影像，並能透過與微軟必應搜尋引擎的合作獲取即時資訊。用於訓練Meta AI的Facebook和Instagram公開貼文還包括文字和照片。

Meta公司的發言人告訴路透社，這些貼文被用來訓練Emu的圖像生成功能，而聊天功能則是在Llama 2的基礎上添加了一些公開可用的註釋資料集。

發言人說，與Meta AI 的互動也可能被用來改進未來的功能。Meta 對Meta AI 工具可以產生的內容施加了安全限制，例如禁止創建公眾人物的逼真圖像。

關於受版權保護的資料，克萊格說，他預計會有”相當數量的訴訟”，涉及”創意內容是否在現有的合理使用原則範圍內”，該原則允許出於評論、研究和戲仿等目的有限度地使用受保護的作品。

一些擁有圖像生成工具的公司為複製米老鼠等標誌性人物提供了便利，而其他公司則為這些素材支付了費用，或有意避免將其納入訓練數據。

例如，OpenAI 今年夏天與內容提供者Shutterstock 簽訂了為期六年的協議，使用該公司的圖片、影片和音樂庫進行訓練。

當被問及Meta 是否採取了任何此類措施來避免複製受版權保護的圖片時，Meta 的發言人指出，新的服務條款禁止用戶產生侵犯隱私權和智慧財產權的內容。

WONGCW 網誌