用戶聊天內容不能白用Reddit將向OpenAI等收費
微軟、谷歌和OpenAI一直在利用Reddit論壇上的用戶聊天數據來開發新的人工智能係統。現在,Reddit打算向這些公司收取使用費。Reddit一直是互聯網上熱門話題的討論集中地,每天有大約5700萬人訪問這個網站討論各種話題,包括化妝技巧、電子遊戲到自動洗車機等等。
近年來,Reddit論壇上的聊天內容已成為谷歌、OpenAI和微軟等公司的免費訓練工具,用於開發人工智能係統。現在,許多業內人士認為,這些人工智能係統將成為科技行業的下一個大事件。
因此,Reddit打算向開發人工智能技術的公司收費。許多公司都通過應用程序編程接口(API)下載並處理論壇上的聊天內容。週二,Reddit表示計劃開始向使用API的公司收費。
Reddit創始人兼首席執行官史蒂夫·霍夫曼(Steve Huffman)在接受采訪時表示:“Reddit的數據庫確實很有價值,我們沒有必要免費提供這些價值給世界上最大的公司。”
Reddit此舉是社交網絡首次明確向OpenAI等收取費用開放訪問權,用於開發像ChatGPT這樣的人工智能係統。ChatGPT等新人工智能係統可能有一天會成為大企業,但對Reddit等公司的幫助不大。相反,這些人工智能係統還可以自動生成聊天內容,成為Reddit的競爭對手。
Reddit正在為今年可能上市做準備,該公司成立於2005年,目前主要依賴平台廣告和電商交易進行盈利。Reddit方面表示,正在敲定API接口的收費細節,並將在未來幾週內公佈價格。
如今,大型語言模型已成為開發人工智能新技術的重要組成部分,Reddit論壇上的用戶聊天內容也成了有價值的商品。
谷歌人工智能聊天機器人Bard的底層算法之一就是用Reddit聊天數據訓練的。同時,OpenAI的ChatGPT也將Reddit的數據作為訓練大型語言模型的信息之一。
除此之外,其他公司也開始意識到平台上所存儲的聊天內容和圖片的價值。圖片託管服務Shutterstock已經把圖像數據出售給OpenAI,幫助開發了能夠根據簡單文字提示就能生成圖像的人工智能係統DALL-E。
目前,有幾千家公司和大小開發者都在使用API跟踪推特平台上的幾百萬條聊天內容。上個月,個人社交媒體平台推特所有者埃隆·馬斯克(Elon Musk)表示,他正在改變使用推特API的現行方式,要為使用API收取幾萬到幾十萬不等的費用。不過馬斯克沒有提到大型語言模型是促使他做出改變的原因。
為了不斷改進模型,人工智能企業需要兩個重要因素:強大的計算能力和大量可用的數據。一些大型人工智能開發企業通常擁有足夠的算力,但仍會在互聯網上尋找改進算法所需的數據。其中包括維基百科、各種數字化書籍、學術文章和Reddit論壇上的聊天內容等資源。
谷歌、OpenAI和微軟等公司目前尚未對Reddit計劃收費的事宜作出回應。
很長一段時間以來,Reddit與穀歌和必應等搜索引擎一直是相互依存的關係。它們自動獲取Reddit網頁信息,進行索引,然後將相關信息展示在搜索結果頁面中。雖然這種自動抓取方式不見得受到所有網站的歡迎,但是Reddit卻能因此在搜索結果中排名靠前。
而大型語言模型則完全不同,它需要盡可能多地獲取數據,這樣才能創建新的人工智能係統。
Reddit認為,它的論壇數據特別有價值,因為它不斷更新。霍夫曼表示,這種新鮮度和相關性正是大型語言模型算法生成最佳結果所需要的東西。
“Reddit比互聯網上任何其他地方都更適合聊天,”霍夫曼說。“網站上有很多內容是你只會私下里說的,或者壓根就不會說的東西。”
霍夫曼還強調,對於想要開發幫助人們使用Reddit的應用程序開發者來說,API仍然是免費的。比如開發者可以免費使用API等工具來開發機器人,自動跟踪用戶評論是否遵守了內容髮布規則。出於學術研究或非商業目的來研究Reddit數據的人也能繼續免費訪問這些數據。
Reddit還希望將更多機器學習融入論壇運營,例如,Reddit可以用機器學習來識別平台上人工智能生成文本的使用情況,並為其添加標籤,告知用戶哪些評論是來自機器人。Reddit還承諾改進供論壇版主使用的軟件工具,幫助他們監控論壇上的第三方機器人。
但對於人工智能製造商來說,Reddit認為是時候付費了。
“通過抓取Reddit的數據來創造價值,卻不向我們的用戶返利,這是我們自己的問題,”霍夫曼說。“現在是我們加強管理的好時機。”