傳微軟聯手新聞集團旗下哈珀柯林斯用海量圖書資料訓練AI模型

知情人士透露，微軟公司與新聞集團旗下的哈珀柯林斯出版公司達成協議，計劃利用後者豐富的非小說類圖書資源來訓練其人工智慧模型，以提升模型的品質和效能。這項合作僅限於使用精選的舊書進行模型訓練，並不涉及創作新書，作者有權選擇是否參與。

具體而言，微軟希望將哈珀柯林斯圖書納入其尚未公佈的人工智慧模型中，以拓展高品質文字來源，提高模型的準確性和專業知識提供能力。儘管微軟拒絕置評，但哈珀柯林斯已證實了這項協議，並表示該協議將「允許有限使用精選的非小說類舊書來訓練人工智慧模型」。

同時，哈珀柯林斯強調，這項協議的範圍有限，對尊重作者權利的模範產出有明確的限制，作者可以選擇是否參與。

「我們的任務之一是為作者創造機遇，讓他們深思熟慮，同時確保他們作品的核心價值以及我們共同享有的收入和版稅得到保護，」哈珀柯林斯表示。「這份協議範圍有限，對那些尊重作者權益的傑出作品設定了明確的界限，它成功地實現了這一目標。”

據了解，科技公司一直在尋找更多高品質文字來源來訓練人工智慧模型，微軟等公司也不例外。他們透過獲得許可，使用從社交媒體網站到新聞文章的一系列數據，以使他們的程式更準確、更好地回答問題或提供特定主題的專業知識。

值得一提的是，新聞集團先前已與OpenAI簽署協議，允許其使用旗下多家出版物的內容。微軟也與多家出版商合作進行人工智慧專案。

此外，今年早些時候，Google與Reddit達成了一項價值6000萬美元的協議，使得這家搜尋巨頭能夠利用大量的subreddit來訓練其AI模型。

然而，一些出版商對人工智慧公司未經許可引用內容的行為表示不滿，並提起訴訟。例如，《紐約時報》起訴了OpenAI和微軟，指控其侵犯版權。

綜上所述，微軟與哈珀柯林斯達成的協議標誌著科技公司在尋求高品質文字來源以訓練人工智慧模型方面的又一重要進展。然而，如何在利用這些資源的同時尊重作者權利，仍是出版商和科技公司需要共同面對的挑戰。

WONGCW 網誌