哈佛大學和Google將發布100萬本書到公共領域用作AI訓練資料集
人工智慧訓練資料價格不菲,最適合財大氣粗的科技公司使用。 這也是哈佛大學計劃發布一個公開資料集的原因,該資料集包含約100 萬本公共領域的書籍,涵蓋各種類型、語言和作者,其中包括狄更斯、但丁和莎士比亞,這些書籍由於年代久遠已不再受版權保護。
新資料集尚未發布,也不清楚何時或如何發布,它所包含的書籍來自Google的長期書籍掃描專案Google Books,因此Google將參與發布”這個寶庫的廣泛應用”。
哈佛大學早在3 月就首次預告了機構數據倡議(IDI),概述了其創建”人工智慧法律資料可信賴管道”的計劃。 然而,直到今天正式啟動之前,該計劃一直鮮有消息,IDI 得到了微軟和OpenAI 的資金支持。
IDI 的執行董事Greg Leppert表示,該資料集旨在”公平競爭”,向希望訓練大型語言模型(LLM) 的任何人(從研究實驗室到AI 新創公司)開放如此龐大的資料集。