紐約時報要求OpenAI銷毀其「盜用」的最重要訓練數據

2024-01-01 Comments 0 Comment

在OpenAI開發者日上，Sam Altman曾宣布推出版權盾計畫：當用戶無意間因AI生成內容發生侵權被要求法律索賠時，OpenAI將為客戶辯護並報銷全額費用。當時此言一出，獲得現場陣陣掌聲。誰曾想11月打出的子彈，兜兜轉轉，第一個擊中的竟是自己。

當地時間週三，《紐約時報》正式向紐約聯邦地方法院起訴OpenAI和微軟，指控這兩家公司未經許可使用其數百萬篇文章用於訓練GPT模型，創建包括ChatGPT和Copilot在內的AI 產品。不僅要求它們對“非法複製和使用獨特價值的作品承擔數十億美元的法定和實際損害賠償”，還要銷毀所有包含NYT版權材料的模型和訓練數據。

《紐約時報》vs. OpenAI

《紐約時報》在訴狀中稱，自己的新聞報導是數千名記者辛勤努力的工作成果，僱用他們的成本每年高達數億美元。而被告“試圖免費搭乘NYT在其新聞業務上巨額投資的便車”，無償使用這些成果，使得AI聊天機器人分流了原本集中向《紐約時報》的網絡流量，從中竊取觀眾，令該公司損失了廣告、授權和訂閱收入。

訴狀也指出，這些AI模型對版權的無視威脅了高品質的新聞業：「如果時報和其他新聞機構無法製作及保護他們的獨立新聞，將會出現電腦或人工智慧無法填補的真空，產生更少的新聞，社會代價將是巨大的。”

其實早在今年四月份，《紐約時報》就曾接觸過微軟和OpenAI，表達對其知識產權使用的擔憂，並試圖探索“友好的解決方案”，建立商業協議和技術護欄。只可惜當時雙方未能談妥。而版權問題也是OpenAI前董事會成員Helen Toner那篇與奧特曼發生過爭執的論文中提及過的點。

接到通知後，OpenAI發言人Lindsey Held在聲明中表示，公司一直在與《紐約時報》「建設性地」進行對話，對訴訟感到「驚訝和失望」。

她說：「我們尊重內容創作者和所有者的權利，並致力於與他們合作，確保他們從AI技術和新型收入模式中獲益。我們希望找到一種互惠互利的合作方式，就像OpenAI正在與許多其他出版商所做的那樣。」（目前包括美聯社和擁有Politico及Business Insider的德國出版商Axel Springer，都授權OpenAI使用其新聞內容。）

儘管《紐約時報》並非首個打響人工智慧技術與書面作品知識版權之爭的實體，但它卻是迄今為止參與此類訴訟最大規模、最知名的出版商，並成為第一家針對OpenAI提起訴訟的主流媒體機構。消息一出就火速佔據各大頭版頭條，引發廣泛關注與巨大反響。

在自家報道文章中，NYT描述此舉「開啟了關於未經授權使用出版作品來訓練大模型的法律戰新陣地」。案件如何判決，也注定引導人工智慧技術與著作權法之間的複雜關係、界定新興法律輪廓，成為生成式AI科技史上的標誌性事件之一。

被曝原文逐字複製、幻覺捏造不實訊息

這次《紐約時報》的訴訟中，首先提及的是《紐約時報》文章與ChatGPT輸出內容之間的「觸及與高度相似性」。

在GPT-3訓練權重最高的資料集－公共爬蟲網站Common Crawl中，www.nytimes.com這個網域是代表度最高的專有來源，僅次於維基百科和美國專利文件的資料庫，總排名第三。Common Crawl 提供的2019年一個英文子集快照裡，清楚顯示《紐約時報》的內容佔了1億個tokens。

《紐約時報》也放出了一個例子，證明ChatGPT在回答用戶提問時，幾乎原文照搬了自己的文章內容。

下圖左側是GPT-4輸出的內容，右側則來自《紐約時報》。紅字標示的部分全都一模一樣，兩者僅有細微的用詞差別。

NYT表示，這些內容來自2019年的一篇報道，該報道是基於對紐約市出租車行業掠奪式貸款事件為期18個月的調查取證、600多次採訪、100多次信息公開申請和幾千頁內部銀行記錄創作出來的，曾獲普立茲新聞獎。

因此這不僅是在討論文章本身，更關乎原創性和創作過程。版權需要保護的不只是勞動，還有創造力。

另外一個例子指出，ChatGPT透過整合的Bing網頁瀏覽插件，輸出未經《紐約時報》授權複製的版權作品。這些合成搜尋結果是基於2023年4月以後的網路資訊。圖片中顯示的就是在使用者簡單提示後，複製了2023年5月的文章《The Precarious, Terrifying Hours After a Woman Was Shoved Into a Train》前兩段。

微軟Bing Chat也是一樣，會在提示下馬上原文輸出付費版權內容。

當詢問關於「NYT旗下網站Wirecutter 2023年最佳無線直立式吸塵器」的文章時，Bing Chat給出了類似的回應：完整列出Wirecutter推薦的三款吸塵器，並直接複製大量原文內容。

訴訟中提到：「這些輸出顯示的原始Wirecutter文章內容遠比傳統搜尋結果中顯示的豐富得多。不同於傳統的搜尋結果，這裡並沒有包含一個明顯的超鏈接，引導用戶訪問Wirecutter網站，嚴重影響了Wirecutter的流量。”

在回應“Wirecutter對最佳辦公椅推薦”的查詢時，GPT-4不僅複製了Wirecutter的前四個推薦，還推薦了“La-Z-Boy Trafford Big & Tall Executive Chair”和“Fully Balans Chair” ，但這兩款產品都沒有出現在Wirecutter的推薦清單裡。

《紐約時報》稱，“用戶依賴Wirecutter提供高品質、經過深入研究的推薦，而這些虛假信息使Wirecutter品牌嚴重受損。”

除此之外，Bing Chat還提供一個號稱來自《紐約時報》的「15種最有益心臟健康的食物」的回答，而其中的12種食物並未在該報文章中提及。訴訟強調媒體品牌可能會因為AI「幻覺」捏造出的不實訊息而遭受潛在損害。

多方觀點熱議

對於這起訴訟，由於知識版權和AI技術、人類學習與機器訓練之間的界線本來就模糊不清，網友們當然看法不一，爭議很多。

站在OpenAI這邊的網友說：「GPT給的回答不是取決於輸入的提示是什麼嗎？如果用戶輸入的提示是『這裡有一篇《紐約時報》的文章，請只做微小的更改。’然後他們複製貼上了那篇文章呢？”

「你說它沒包含參考文獻？通常情況下，當我看到ChatGPT提供這樣的答案時，它都會像搜尋引擎一樣提供源材料的參考。不過無論如何，這絕對是讓《紐約時報》的信息在未來被排除在外的絕佳方式。”

「為什麼新聞業會是公共利益的一部分，而基於人類累積知識訓練的AI模型不會是呢？從各個意圖和目的來看，ChatGPT可以充當任何高中或大學學生的私人導師……而《紐約時報》顯然只是在追求金錢…… ”

還有人說，“人工智慧不是在和人類做一樣的事情嗎——從各種資源中收集信息，然後基於這些資源輸出答案？”

接著這個觀點被駁斥：“不同之處就是，人並不是一個盈利產品。”

「OpenAI繞過了付費牆，並從被盜取的資料中獲利，這是典型的版權侵權行為。人類並不會複製貼上整個《紐約時報》的段落並要求收費。藝術家讓人「記住”作品並根據記憶重新繪畫，和讓攝影師拍攝一幅藝術作品的200MP圖像並分發該圖像，這是有區別的。”

我們知道大模型不會分辨資訊來源，也不會真的去「讀」內容，而是根據提供的訓練集形成注意力機制，根據經驗輸出結果，所以不存在「抄襲」。

支持《紐約時報》的網友認為，這次訴訟案件關注的是大型語言模式的輸入，而不是學習過程和產出。關注點不在於輸出的風格是否與原作者或藝術家的風格過於相似，而在於版權作品是否應該（或如何）被納入訓練資料集。

不過，YC現任掌門人Gary Tan也站出來力挺OpenAI，在X轉發了一篇數盡NYT黑料的剖析文章，並表示「《紐約時報》對OpenAI的訴訟是愚蠢的，是由那些不太懂版權法的人撰寫的，而且將使《紐約時報》自己面臨被起訴的風險。”

但不論如何，各界都覺得這是一個值得推敲和重大影響的案例，關係到接下來生成式AI的路如何走下去。“這將是與AI和人類生成數據相關的最重要訴訟之一。這場訴訟的結果將對其他新聞和媒體公司產生巨大影響。”

而除了OpenAI外，許多AI產品也都在用Common Crawl的資料集來進行訓練，這次訴訟結果或許會影響整個AI產業。大家也在猜測，如果紐約時報勝訴，導致其他媒體機構紛紛效仿，會不會在一定時間內阻礙AI技術的發展？當然，也必定引起對著作權法的重新審視，因為就現有的法律來說，可能並不適用於新興的AI 技術。

「最高法院的裁決實際上是不可避免的，」ProPublica前總裁、新聞業務顧問Richard Tofel說道，「一些出版商在一段時間內達成了和解，但足夠多的出版商不會這樣做，這個新穎且關鍵的版權法問題將需要解決。”

而在今年2月，美國最大商業圖庫Getty Images也曾於特拉華州起訴AI藝術公司Stability AI，稱後者侵犯了Getty的版權，未經允許複製了超過1200萬張照片及其標題和元數據，來訓練自己的Stable Diffusion模型。掀起AI與版權的持續討論。

據悉，在此次最新訴訟中，《紐約時報》已聘請Susman Godfrey和Rothwell, Figg, Ernst & Manbeck律師事務所作為訴訟的外部法律顧問。Susman曾代表Dominion Voting Systems在其誹謗案件中對抗福克斯新聞，該案件於4月以7.87億美元的和解結果告終。上個月也曾代表非小說作者提起了針對微軟和OpenAI的集體訴訟，這些作者的書籍和其他版權資料被用來訓練聊天機器人。

生成式AI技術與內容智慧財產權的法律戰，終於被《紐約時報》一紙訴狀帶到了檯面上。儘管這種錯綜複雜的情況需要抽絲剝繭，在沒有參考案例的情況下，短時間內根本不會有結果。但面對建立安全人工智慧的終極目標，這些都是一路上必要解決的問題。摸著石頭過河，又何嘗不是人類自我訓練的過程。那麼大家對於《紐約時報》對OpenAI的這起轟動性訴訟，又有什麼看法呢？歡迎貢獻你的觀點！

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

WONGCW 網誌

記錄生活經驗與點滴

紐約時報要求OpenAI銷毀其「盜用」的最重要訓練數據

2024-01-01 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆