樹大招風的ChatGPT又遭起訴用以訓練的數據究竟值多少錢?
人工智能雖然是今年最大的趨勢之一,但事實上業內外對這一技術現在都有些摸著石頭過河的感覺,無論是監管還是行業內部都不知道如何規範其發展。而ChatGPT作為掀起人工智能熱潮的產品,更是處於風口浪尖。週三,美國一家律師事務所向加州北區聯邦法院提起集體訴訟,指控OpenAI和微軟使用互聯網抓取的信息來訓練ChatGPT時,嚴重侵犯了無數人的版權和隱私,要求公司賠償30億美元。
Clarkson律師事務所的執行合夥人Ryan Clarkson表示,希望代表信息被竊取並被商業應用的人採取法律行動。
其在訴狀中指出,儘管制定了購買和使用個人信息的協議,但被告採取了不同的方式:盜竊。OpenAI和微軟系統性地從互聯網中竊取了3000億個單詞,包括未經同意獲取的個人信息。
訴狀稱,OpenAI秘密進行了數據的竊取,而沒有按照適用法律的要求,註冊為數據經紀人。數百萬人的個人信息,包括賬戶信息、姓名、聯繫方式、支付信息、聊天記錄等隱私數據都在未經許可的情況下,被OpenAI和微軟收集、存儲、共享和披露。
課本費
這一訴訟無疑觸到了生成式人工智能的一個重大問題,即訓練人工智能用到的大量“課本”,需不需要相關公司來買單。
Clarkson認為,寫下數十億字的人們從未同意讓OpenAI這樣的公司用來訓練模型並謀取私利,他希望法院能夠就人工智能算法的訓練方式,以及人們數據被使用時如何獲得補償制定一系列監管措施。
Clarkson律所還稱,之所以起訴OpenAI和微軟,也是槍打出頭鳥。因為ChatGPT的推出引發了人工智能軍備競賽,刺激了大量對手推出AI模型,因此,OpenAI和微軟當然是第一目標。
目前已有16名人士列席原告,Clarkson律師事務所還在尋找更多的原告。
雖然OpenAI並沒有透露其最新模型GPT-4使用了那些數據,但此前的GPT版本已被證實使用了維基百科、各大新聞和社交媒體評論中的數據。谷歌和其他公司的聊天機器人也採用了類似的數據集。
Gunderson Dettmer事務所的知識產權律師Katherine Gardner分析,藝術家和其它創意專業人士若證明他們受版權保護的作品被用來訓練人工智能模型,或許可以對人工智能公司提起異議,但僅僅在網站上發帖或評論的人,不太可能用版權保護來獲得賠償。
截至目前,OpenAI和微軟尚未對此事發表評論。