數千名作家聯名寫信敦促AI行業停止竊取圖書
如果你要求GPT-4 以卡門-馬查多(Carmen Machado)、瑪格麗特-阿特伍德(Margaret Atwood)或亞歷山大-謝(Alexander Chee)的風格來寫一段文字,它一定能完成得很好,這是有充分理由的:它很可能在訓練過程中吸收了他們的所有作品,現在將他們的聰明才智用於自己的創作。但這些作家以及成千上萬的其他作家對此並不滿意。
閱讀聯名信全文:

在一封由8500 多名小說、非小說和詩歌作者簽署的公開信中,ChatGPT、Bard、LLaMa 等大型語言模型背後的科技公司被指責未經許可或補償使用了他們的作品。
“這些技術模仿和復制了我們的語言、故事、風格和思想。數以百萬計的受版權保護的書籍、文章、散文和詩歌為人工智能係統提供了’食物’,這些無窮無盡的’大餐’沒有產生任何賬單,”信中寫道。
儘管人工智能係統被證明能夠引用和模仿相關作者的作品,但人工智能開發者並沒有實質性地解決這些作品的出處問題。它們是根據從書店和評論中搜羅的樣本進行訓練的嗎?每本書都是從圖書館借來的嗎?又或者,它們只是下載了許多非法檔案,比如Libgen?
有一點是肯定的: 他們沒有去出版商那裡獲得授權–毫無疑問,這是首選的方法,也可以說是唯一合法和合乎道德的方法,作者寫道。
最高法院最近在沃霍爾訴戈德史密斯一案中的判決不僅明確指出,AI使用具有高度的商業性,這與合理使用相悖,而且沒有法院會將復制非法來源的作品作為合理使用的藉口。將我們的作品嵌入你們的系統後,生成式人工智能可能會損害我們的專業,因為基於我們作品的平庸的機器寫作書籍、故事和新聞會充斥市場。
事實上,我們已經看到了這種情況的發生。最近,一些由人工智能生成的質量極低的作品登上了亞馬遜的青年文學暢銷書排行榜;出版商被大量生成的作品所淹沒;每天,這個網站(以及不久之後的這篇文章)的內容都會被搜刮,以便被改編成用於搜索引擎優化的內容。
這些惡意行為者正在使用OpenAI 和Meta 等公司開發的工具、API 和代理,在這種情況下,這些公司本身也可以說是惡意行為者。畢竟,還有誰會在知情的情況下竊取數以百萬計的作品來為新的商業產品提供動力呢?(當然,還有Google–但搜索索引與人工智能攝取有本質區別,而且Google圖書至少還有一個藉口,那就是它本來就是一個專用索引)。
公開信警告說,由於大規模出版的複雜性和狹小的利潤空間,能夠靠寫作謀生的作者越來越少,這對他們來說是一種難以維持的局面,尤其是新作者,”特別是年輕作者和來自代表性不足的群體的聲音”。
信中要求這些公司做到以下幾點:
1. 獲得在生成式人工智能程序中使用我們受版權保護的材料的許可。
2. 對過去和現在在生成式人工智能程序中使用我們作品的作家給予公平補償。
3. 在人工智能輸出中使用我們的作品時,無論根據現行法律這些輸出是否侵權,都要公平地補償作者。
沒有任何法律威脅–正如作家協會首席執行官(也是簽字人)瑪麗-拉森伯格(Mary Rasenberger)對美國國家公共廣播電台(NPR)所說:”訴訟是一筆巨大的開支。訴訟需要很長的時間”。現在,人工智能正在傷害作者。
哪家公司會第一個說”是的,我們的人工智能是建立在被盜作品的基礎上的,我們很抱歉,我們會為此付出代價”?但這樣做的動力似乎不大。大多數人並沒有意識到,也不關心LLM 是通過什麼非法手段創造出來的,它們實際上可能包含並轉錄了受版權保護的作品。當生成的圖像再現了藝術家的獨特風格時,人們更容易看到這個(非常相似的)問題,也會有一些反彈。
但是,把喬治-桑德斯或戴安娜-加伯頓的所有作品作為人工智能的”食物”,這種微妙的危害可能不會刺激那麼多人採取行動–儘管有很多作者已經做好了鬥爭的準備。