反抗OpenAI白嫖自己的“美國百度貼吧” 怎麼先被自己用戶爆吧了?
不知道有多少人還記得今年4月Reddit宣布對API接口收費的事。省流版回顧是,因為不滿意OpenAI和Google等公司白嫖自己平台的數據來訓練他們的大模型,Reddit準備開始對調用它API的公司收費了。最近有人發現,受此事影響,Reddit上規模不小的三個小組r/aww、r/pics和r/gifs(分別有3410萬、3000萬和2160萬人訂閱),紛紛被John Oliver的梗圖“爆吧”了。
因為Reddit小組內顯示的帖子都是按點贊數排序的,所以當進入這三個小組,翻下來滿屏都是John Oliver那張充滿喜感的臉龐……
spez是Reddit CEO Steve Huffman在Reddit的用戶名
r/gifs和r/aww還把各自的組名改成了“GIFs of John Oliver”和“A subreddit for cute and cuddly John Oliver pictures”。
John Oliver是知名脫口秀節目《上週今夜秀》的主持人,這檔節目因對時事新聞的嘲諷而出名,網友的集體行為藝術明顯是想藉他的梗圖表達對Reddit的不滿。
比如有一個22.2萬人點讚的圖,畫面內容是John Oliver和《芝麻街》三個主要角色的合影,配文則是:John Oliver和Reddit的CEO和高管們。
更抓馬的是,這些梗圖用到的素材好多都是John Oliver自己主動提供給網友的。
所以這到底是怎麼一回事?
挑撥離間的Reddit?
Reddit曾在今年4月18日透過媒體宣布,將對調用其API的公司收取數據使用費,當時Reddit的CEO Steve Huffman明確表示,“Reddit 的數據語料庫非常有價值,但我們沒有必要把所有這些有價值的數據免費提供給一些全球數一數二的大公司。”
這個決定乍一聽是針對OpenAI和Google等開發大模型的公司說的,但很快,一些其他領域的開發者回過味來,自己可能才是被宰得最狠的那個。
鬧得最大的一次是在本月8日,iOS平台上的第三方Reddit客戶端Apollo宣布將在6月30日正式關閉。
我們知道,一直以來Reddit移動端做得很差,所以催生了很多第三方App的開發。他們會用到Reddit提供的免費API接口,來幫用戶更便捷地翻閱Reddit上的內容,Apollo就是最受用戶歡迎的第三方Reddit客戶端之一。
Apollo的開發者Christian Selig談到關閉Apollo的原因時說,在新的API政策下,Reddit將對每5000萬個API請求收取1.2萬美元的費用,而按照Apollo的用戶規模和使用情況,上個月就要先支付168萬美元(70億個API請求),每年可能要向Reddit支付高達2000萬美元的費用。
問題是這一天價費用對Christian Selig這樣的個人開發者以及定位免費的Apollo來說,根本付不起。
Christian Selig和Reddit多次溝通無果,最後做出了關站的決定。其實事情一般發展到這里大家就可以散了,Reddit對API收費也在情理之中,不過真正讓用戶感到憤怒的,是Reddit接下來一系列的騷操作。
Christian Selig還在和Reddit商談時,有一天突然收到一條信息,問他怎麼評價Reddit內部聲稱的“Apollo試圖威脅Reddit索要1000萬美元以平息紛爭”的事。
但讓Reddit沒想到的是,Christian Selig在和他們的溝通中進行了錄音。隨後他便把這部分通話的文字記錄和音頻發在了網上,並評價Reddit是在“明目張膽地撒謊”。
本以為經過這次,Reddit會重新思考定價的事,可它不僅依然強硬地表示會推進新的API政策,
還繼續抨擊Christian Selig,“對我們說一套,對外卻完全是另一套話……錄音並洩露私人電話,以至於我不知道我們該如何與他做生意。”
這場糟糕的回應最終導致Reddit上7000多個小組都加入到了抗議Reddit的活動中,有的小組大部分內容都變黑了,有的轉為私有,還有的則選擇直接關閉。
一度甚至搜不到Reddit上最大的小組r/funny
儘管這波抗議讓Reddit幾乎癱瘓,Reddit CEO Steve Huffman依然發表了一些驚人的言論,比如把為Reddit小組無償奉獻的組長們稱作是“地主紳士”,而很多組員則是不得不聽他們的話,“就像一個城市裡的抗議活動持續了太久,其他市民都想繼續他們的生活……如果能評論,我敢打賭這些組員會說’把它關掉,這很煩人’。”
隨後便有了本文開頭用戶的行為藝術。
這幾個小組的組長為了推翻Steve Huffman的言論,號召各自的組員進行了一次投票來決定小組的未來,選項則是:A-恢復正常,B-只允許發John Oliver的梗圖。
結果選B的票數壓倒性地獲得了勝利。
一切因大模型而起
Reddit其實不是第一個因為大模型調用數據的問題而更改API費用規則的平台。今年2月,馬斯克宣布Twitter的API訪問將在未來設置付費牆。
根據Twitter客戶代表在3月初公佈的一份文件來看,該公司計劃向開發者提供三個級別的企業包:
其中最便宜的Small Package每月需要支付4.2萬美元,可以訪問5000萬條推文。更高的級別可以讓研究人員或企業訪問更多數據,分別為1億條和2億條推文,但每月的費用分別為12.5萬美元和21萬美元。
也就是說,開發者每年至少要向Twitter支付50萬美元的費用(但50萬5000萬條推文的數據量對訓練大模型來說遠遠不夠)。
而到了4月19日(也是Reddit宣布將對API使用收費的後一天),因對未來無法免費訪問Twitter數據不滿,微軟發佈公告稱將不再對Twitter提供面向用戶的廣告數據管理服務。
接著就是馬斯克在第二天發推文稱可能會起訴微軟,指控其“非法”利用Twitter數據訓練AI。
另外Getty Images也在今年2月起訴了Stability AI,稱其侵犯了Getty Images的圖片版權。
不過類似的事發展到Reddit這裡,情況似乎不太一樣,一是Reddit沒選擇起訴大模型公司,二是在Reddit的API收費標準曝光之後,大模型公司們(尤其是OpenAI)仍在保持沉默。
很多人不知道的是,如今OpenAI的CEO山姆·奧特曼(Sam Altman)曾是Reddit的早期投資人。
奧特曼早期創業開發的移動應用程序Loopt曾和Reddit是老牌知名孵化器Y Combinator投資的同一批創業公司,後來創業失敗,在2012年賣掉Loopt之後,奧特曼便加入了Y Combinator做兼職合夥人。
2014年,Y Combinator創始人Paul Graham選了比自己小整整20歲的奧特曼繼任Y Combinator的總裁,再後來就有了奧特曼領導的Y Combinator在2014年9月領投Reddit B輪融資的事。
他甚至還在2014年Reddit CEO Yishan Wong辭職後,擔任了Reddit 8天的臨時CEO。
此後的7年多時間,奧特曼一直都是Reddit的董事會成員,直到2022年1月才宣布離開。他在離開時表示,“作為用戶我很愛Reddit,也很愛我在董事會度過的歲月,Steve領導的團隊和董事會的其他成員都很棒,整個公司都是非常有能力的人。”
因此有人猜測,憑著7年的“交情”,Reddit對API使用收費的決定反而可能是和OpenAI商量好了的。
數據被認為是未來大模型競爭的關鍵要素之一,尤其隨著Meta的開源大語言模型LLaMA發布,不久前針對大模型開源與否的“Google和OpenAI沒有護城河”的說法也一度被廣泛討論——結論之一就是,用於訓練大模型的數據質量要優於數據大小。
而不論是數據質量還是數據大小,Reddit都是佔優勢的。首先它是全球訪問量排名第11的網站(美國訪問量排名第6),其次它每天都在產生不斷更新的、對當下最熱事件的真實討論——怎麼看都是訓練大模型最理想的數據庫。
此前有報導稱,Reddit計劃在今年晚些時候IPO,意味著至今收入仍以廣告為主且仍未盈利的Reddit迫切需要找到更多盈利途經,而不差錢的OpenAI明顯又比個人開發者更有吸引力。
奧特曼之前也說過,OpenAI在積極和內容公司合作、獲得授權,表示願意為特定領域的高質量數據支付高價。
一個出數據,一個出錢,看起來是非常完美的組合了。還有人猜想,以後Reddit會接入大模型也說不定。
從目前Reddit強硬的態度來看,它似乎並沒有太多想照顧個人開發者的意思,在用戶和商業利益面前,它選擇的是後者。但一個矛盾的問題是,Steve Huffman口中Reddit平台能夠訓練大模型產生最佳結果的、同時具備“新穎性和相關性”的數據,又是一個又一個Reddit用戶創造的。
但就像Steve Huffman會說出“一個城市裡抗議活動持續了太久,其他市民都想繼續他們的生活”的話,他似乎非常堅信用戶不會離開。