OpenAI突然「銷毀」了10萬多本書,到底發生了什麼事?
最新解封的法庭文件顯示,OpenAI刪除了兩個名為「圖書1」(books1)和「圖書2」(books2)的龐大資料集,這些資料集曾用於訓練其GPT-3人工智慧(AI)模型。
這些文件來自美國作家協會對OpenAI提起的集體訴訟。美國作家協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。
幾個月來,美國作家協會一直尋求從OpenAI獲得有關這些數據集的資訊。法律文件顯示,OpenAI最初以保密為由拒絕提供這些資料集的下落,但最終揭露已刪除所有資料副本。
高品質的訓練資料是強大AI模型的重要組成部分。目前,這些AI模型正在席捲科技界。 OpenAI和其他公司使用網路資料來建立這些模型,其中包括許多書籍。許多創造這些數據的公司認為,他們為新的AI產品提供了訓練數據,需要獲得報酬。但是,科技公司不想被迫付費。這一爭執已經引發了多起官司。
500億個單字
OpenAI曾在2020年發布過一份白皮書,將圖書1和圖書2資料集描述為“基於互聯網的圖書語料庫”,並表示它們佔據創建GPT-3訓練數據的16%。白皮書也表示,圖書1和圖書2總共包含670億個資料詞元(token),大致相當於500億個單字。作為比較,《欽定聖經》有783,137個字。
最新解封的法庭文件是OpenAI律師的信函,它被標記為“高度機密-僅限律師查看”。信中說,OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由於這些資料集不再使用,它們在2022年年中被刪除。信中還說,用於訓練GPT-3的其他資料都沒有被刪除,並允許美國作家協會的律師存取其他資料集。
文件也顯示,創建圖書1和圖書2的兩位研究人員已不再受僱於OpenAI。 OpenAI最初拒絕透露這兩名員工的身份,隨後向美國作家協會的律師確認了這些員工的身份,但沒有公開披露他們的姓名。 OpenAI已經請求法院對這兩名員工的姓名以及有關資料集的資訊保密。美國作家協會對此表示反對,認為大眾有知情權。目前,爭議仍在持續。
OpenAI週二在聲明中表示:「驅動目前ChatGPT和應用程式介面的模型不是使用這些資料集開發的。這些資料集是由OpenAI前員工創建的,最後一次使用是在2021年,並在2022年因未使用而被刪除。