OpenAI告訴監管機構:在沒有版權材料的情況下訓練可用的AI模型是”不可能的”。
人工智慧研究人員過去一直安分守己。但現在,OpenAI、微軟、Google等公司正在將生成式人工智慧商業化,使用受版權保護的訓練材料的行為受到了抨擊。英國監管機構要求提供相關訊息,OpenAI 最近做出了回應。
OpenAI 最近告訴上議院成員,不使用受版權保護的材料來訓練大型語言模型(LLM)是”不可能的”。這項說法是對英國通訊與數位特別委員會(Communications and Digital Select Committee)的回應,該委員會正在調查涉及當前人工智慧系統的法律問題。
目前的消費者應用,如ChatGPT 和Dall-E 都是基於GPT-3 的。自2018 年以來,OpenAI 已在數十億份寫作、藝術和照片樣本上訓練了該模型,這些樣本大多從網路上採集而來。今年3 月,OpenAI 發布了GPT-4,它使用了一個容量約570GB 的文字樣本資料集。培訓材料中的一些例子包括網站和書籍,毫無疑問,這些都是受保護的作品。然而,版權法遠不止書籍和網站。
OpenAI在提交給上議院的呈文中寫道:”由於當今的版權幾乎涵蓋了人類的每一種表達方式,包括部落格文章、照片、論壇帖子、軟體程式碼碎片和政府文件,因此如果不使用受版權保護的材料,就不可能訓練出當今領先的人工智慧模型。”
事實上,根據現行版權法,版權甚至無需註冊即可受到保護。當創作者將任何智慧財產權設定為永久性媒體時,它就立即擁有了版權。無論它是數位檔案、影片、書籍、部落格文章還是論壇評論,都沒關係。所有版權法均適用。
這個問題在過去幾年並不是什麼大問題,因為機器學習研究完全是學術性的。訓練在很大程度上被認為是合理使用,沒有人去打擾研究人員。然而,現在LLM 開始走向商業化,它們已經進入了合理使用原則的灰色地帶。
在極少數情況下,ChatGPT 會”轉錄”受版權保護的片段,這是一種不折不扣的侵權行為,也是OpenAI 正在努力消除的一個問題。不過,這個問題與研究人員使用受保護材料訓練LLM 時發生的情況並沒有直接關係。相反,該系統利用受版權保護或其他作品來學習語言的結構和使用方式,從而創造出人類能夠理解的原創內容。
遺憾的是,作為一個新領域,版權法沒有關於人工智慧訓練的法律定義。因此,涉嫌侵權的各方開始向法院提起訴訟。OpenAI和微軟等公司表示:”不,訓練屬於合理使用範疇,一如既往。”
OpenAI 在本週的一篇部落格文章中指出:「使用公開的網路資料訓練人工智慧模式屬於合理使用,這一點得到了長期以來廣為接受的先例的支持。我們認為這項原則對創造者是公平的,對創新者是必要的,對美國的競爭力也是至關重要的。”
儘管認為合理使用原則涵蓋了法律碩士培訓,但OpenAI提供了一個簡單的退出程序,《紐約時報》在去年8月就使用了該程序。OpenAI 的工具無法再訪問《紐約時報》網站,但該報還是在12 月提起了訴訟。
OpenAI方面表示:”我們支持新聞業,與新聞機構合作,但認為《紐約時報》的訴訟毫無根據。”
OpenAI 還面臨著幾位出版作家的類似訴訟,其中包括知名喜劇演員莎拉-西爾弗曼(Sarah Silverman)。這是一個法院無法單獨解決的問題。美國專利商標局和立法者需要明確界定人工智慧訓練在版權規則中扮演的角色。