Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

高中教師養出40億美元超級獨角獸Stable Diffusion 還發布ChatGPT最大平替

高中教師養出40億美元超級獨角獸Stable Diffusion 還發布ChatGPT最大平替

2023-05-02 Comments 0 Comment

他本是一位普普通通的高中教師,卻活生生養出一個估值40億美元獨角獸。而且方法也是非常的獨特——打造了世界最大的免費開源數據集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請。

他叫舒曼,在德國漢堡市的高中教物理和計算機科學。

兩年前他創立了LAION(相當於CLIP圖文數據集),如今被用於各種生成模型,包括GoogleImagen、Parti,以及驚艷全球的Stable Diffusion。

就連Stable Diffuision背後公司Stability AI的創始人曾親自來送錢時,他都表現出嗤之以鼻的樣子,認定“這個人一定是瘋了”。

或許他怎麼也沒想到,只不過兩年前靈機一動,就帶來了生成式AI的劇變。

受DALL-E啟發

2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實現跨界:

只需對著它說上一段話,就能生成對應圖片。

一時間風光無兩,吳恩達在內的科技大佬們都激動了,網友們都稱其為甲方剋星。

但在德國漢堡市郊區的一間房屋內,這位高中教師舒曼(Christoph Schuhmann)卻產生了對數據私有化的擔憂:

如果這一切都集中在一家、兩家或三家公司,那將對社會產生非常糟糕的影響。

當時,OpenAI發表了背後關鍵模型CLIP的論文。論文中顯示,CLIP在4億個圖像-文本對上進行了預訓練,在沒有精細調整的情況下,最終在各種多模態基準中實現高性能。

由此可見數據集對於CLIP的重要性,但OpenAI並沒有進行公開,它只開源了CLIP的代碼和模型權重。

(看來從那時候就已經變得Close了)

於是乎,舒曼就開始在Discord網羅了一群同為AI愛好者的朋友,嘗試複製OpenAI同等水平的“文本-圖像對”數據集。

沒想到這一搞就搞了大半年,直到2021年8月他們首次發布了LAION-400M數據集,裡麵包含了4.13億圖像-文本對。

回顧整個創建過程,舒曼對彭博社這樣形容:

就像是用數百萬張抽認卡來教一個人一門外語。

他們用一個非盈利組織Common Crawl在2014年到2021年期間,抓取的隨機HTML代碼來定位網絡上的圖像,並將這些圖像與描述性文本聯繫起來,最後還得根據一定規則來過濾掉不適合的樣本。

比如,刪除了所有文本長度少於五個字符;圖像小於5KB的的樣本;關鍵字帶有NSFW的……幾週之內,他們就擁有了300萬對圖文對。

數據集發布之後就收到了各種反響,被用於諸多論文和實驗。其中最具代表性的,就是Google Brain去年(2022)發布的Imagen ——文本生成圖像的擴散模型。

與此同時,更多機構開始關注到這個非盈利組織並給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次,還要屬一個對沖基金經理來到Discord聊天室。

當時他二話不說直接送錢,大概意思是:我給你們支付算力費用,沒有任何附加條件。

舒曼團隊對這個行為嗤之以鼻,甚至覺得他是個瘋子:

一開始我們非常懷疑,但大概一個月後,我們獲得了價值近1萬美元的雲計算服務。

後來,這個所謂的“瘋子”創辦了Stability AI,使用LAION數據集推出了Stable Diffusion,引領了生成式AI的浪潮,順便還拐走了LAION組織的兩個研究人員。

如今Stability AI正在尋求40億美元(折合276億元)估值,這主要歸功於LAION提供的數據。

據彭博社消息,舒曼卻並沒有從LAION中獲利,原因很簡單:不感興趣,希望保持這份工作的獨立性。

因此他還婉拒了各類工作邀請,依舊選擇在德國漢堡當一名普普通通的高中老師。

本人:數據集不應該被監控

即便如此,隨著LAION知名度打響,他還是避免不了地捲入到各種紛擾之中。

目前,LAION已經發布了10項數據集,最具代表性的就是去年3月發布的LAION-5B,由58.5億個圖像文本組成,是當前最大的免費開源數據集。

作為LAION-400M的繼任者,它收到了來自HuggingFace、Stability AI以及Doodlebot資助。

結果一發布就遭到了不小的爭議,網友們紛紛質疑其數據未經整理,導致充斥大量的非法內容,對此LAION工程師Romain Beaumont回應:

非標註數據集是自我監督學習的基礎,這是機器學習的未來。沒有人工標註的圖像/文本是一項功能,而非錯誤。

早在Imagen發佈時,也專門針對LAION-400M做出警示:因為依賴於這種未經整理的網絡數據, 集成了大模型的社會偏見和限制,因此不適合公開使用。

據彭博社消息,為了打造LAION,舒曼團隊從亞馬遜網絡服務、Shopify等公司獲取視覺數據,還有包括YouTube縮略圖、各類新聞網站上的內容。

對此舒曼表示,任何在網上免費提供的東西都是公平競爭,歐盟也沒有人工智能法規。

更何況,也沒有人知道OpenAI實際上用什麼樣的數據集訓練AI的。

目前,LAION被迫捲入兩場訴訟之中,一起是Stability AI與Midjourney等集體訴訟,被指使用藝術家的版權圖片來訓練他們的模型;

另一起是Getty Images起訴Stability AI,稱其1200萬張照片被LAION取走,並用來訓練Stable Diffusion。

而舒曼將LAION比作大信息技術海嘯之上一艘“小型研究船”,採取海下的樣本向世界展示。

其實早在構建數據庫時,他們就在運行一個自動化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產中學習。

我們本可以從公佈的數據中過濾掉暴力,但我們決定不這樣做,因為這將加快暴力檢測軟件的開發。

現在更多關於監管的建議在推動,各個科技大廠也在採取相應的措施,比如英偉達就開源了護欄工具,來防止大模型來胡說八道。

但在舒曼看來,數據集不應該被監控。這也正是當時創建LAION時候的初心。

他還警告,如果我們試圖放慢速度、過度監管,就會有很大的危險,最終只有少數大公司能負擔得起所有的正式要求。

前段時間,在LAION與全球志願者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發布。

60萬餘條訓練數據全部由人工生成,涵蓋了廣泛的話題和語言風格,一時間引發眾人關注,HuggingFace也直接拿來用來構建它自己的聊天軟件HuggingChat。

拿著德國鐵飯碗

不可否認的是,他已經在用開源數據集,加劇了生成式AI的浪潮。

但在舒曼的個人網站上,看到的只是一位兩個孩子的父親,在德國當著終身製公務員,遊走於中學校之間講授物理和計算機科學。

舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業之前,他還學了心理學。(大概完成了50%的學士學位然後就轉專業了)。

除此之外,他還在學習表演,製作了一部關於孩子學習的紀錄片“Schools of Trust”。

最近,這位高中教師也沒閒著,他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環節。

來源:量子位

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
蕾哈娜參演新電影《藍精靈》 成為“藍妹妹”
NEXT
牛津大學教授:AI將在幾十年內達到人類水平需制定監管機制

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2023 年 5 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
293031  
« 4 月   6 月 »

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • 微粒子療法可使100%的小鼠逆轉多發性硬化症三分之一得到治愈 2023-06-05
  • 韋伯望遠鏡揭開螺旋星系NGC 5068恆星形成過程的秘密 2023-06-05
  • 特斯拉開清庫存Model 3優惠2萬甩賣,新款真的要來了 2023-06-05
  • XGP故障、鍵鼠無響應:Windows 11 KB5026446更新又出問題 2023-06-05
  • 台積電先進工藝明年繼續漲價漲多少全看面子 2023-06-05
  • 特斯拉召回部分Model Y:行駛中方向盤可能會掉中國車主不受影響 2023-06-05
  • 印度耗資百億盧比的大橋又塌了去年就塌過一次 2023-06-05
  • 全球首架載人“飛碟”在深圳起飛:水陸兩棲起降最快50km/h 2023-06-05
  • 全球手機處理器市場現狀:前三沒懸念國產靠它苦撐 2023-06-05
  • 《暗黑4》預計將移植蘋果平台:10年前的顯卡都流暢iPad也能玩 2023-06-05

熱門文章與頁面︰

  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 世界上有多少個國家
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • 盜版Windows 7還能免費升級Windows 10嗎?
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • 靠養貓養狗年入百萬:寵物博主是門怎樣的生意?
  • 天翼網盤免登陸高速下載,直鏈解析不限速
  • Nreal Air AR眼鏡評測:“視覺放大器” 輕鬆實現巨幕體驗
  • 印度列車相撞事故已致死傷超千人百列火車運行受影響

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.