OpenAI突然「銷毀」了10萬多本書，到底發生了什麼事？

2024-05-08 Comments 0 Comment

最新解封的法庭文件顯示，OpenAI刪除了兩個名為「圖書1」(books1)和「圖書2」(books2)的龐大資料集，這些資料集曾用於訓練其GPT-3人工智慧(AI)模型。

D3277FE1DF57771590C6252302FBFA2A05691DEA_size122_w1200_h800.webp

這些文件來自美國作家協會對OpenAI提起的集體訴訟。美國作家協會的律師在法庭文件中表示，這些數據集很可能包含“10萬多本已出版書籍”，是該協會指控OpenAI使用受版權保護的材料來訓練AI模型的關鍵。

幾個月來，美國作家協會一直尋求從OpenAI獲得有關這些數據集的資訊。法律文件顯示，OpenAI最初以保密為由拒絕提供這些資料集的下落，但最終揭露已刪除所有資料副本。

高品質的訓練資料是強大AI模型的重要組成部分。目前，這些AI模型正在席捲科技界。 OpenAI和其他公司使用網路資料來建立這些模型，其中包括許多書籍。許多創造這些數據的公司認為，他們為新的AI產品提供了訓練數據，需要獲得報酬。但是，科技公司不想被迫付費。這一爭執已經引發了多起官司。

500億個單字

OpenAI曾在2020年發布過一份白皮書，將圖書1和圖書2資料集描述為“基於互聯網的圖書語料庫”，並表示它們佔據創建GPT-3訓練數據的16%。白皮書也表示，圖書1和圖書2總共包含670億個資料詞元(token)，大致相當於500億個單字。作為比較，《欽定聖經》有783,137個字。

最新解封的法庭文件是OpenAI律師的信函，它被標記為“高度機密-僅限律師查看”。信中說，OpenAI已在2021年底停止使用圖書1和圖書2進行模型訓練。由於這些資料集不再使用，它們在2022年年中被刪除。信中還說，用於訓練GPT-3的其他資料都沒有被刪除，並允許美國作家協會的律師存取其他資料集。

文件也顯示，創建圖書1和圖書2的兩位研究人員已不再受僱於OpenAI。 OpenAI最初拒絕透露這兩名員工的身份，隨後向美國作家協會的律師確認了這些員工的身份，但沒有公開披露他們的姓名。 OpenAI已經請求法院對這兩名員工的姓名以及有關資料集的資訊保密。美國作家協會對此表示反對，認為大眾有知情權。目前，爭議仍在持續。

OpenAI週二在聲明中表示：「驅動目前ChatGPT和應用程式介面的模型不是使用這些資料集開發的。這些資料集是由OpenAI前員工創建的，最後一次使用是在2021年，並在2022年因未使用而被刪除。

WONGCW 網誌

記錄生活經驗與點滴

OpenAI突然「銷毀」了10萬多本書，到底發生了什麼事？

2024-05-08 Comments 0 Comment

相關

發表迴響取消回覆

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分享此文：

相關

發表迴響取消回覆