DeepSeek的秘方是矽谷味兒的
中國杭州的人工智慧創業公司DeepSeek 是近一段時間矽谷的AI 研究者和開發者的心魔。它在2024年12月發布的大語言模型DeepSeek – V3 被認為實現了諸多的不可能:550萬美元和2000塊英偉達H800 GPU(針對中國市場的低配版GPU)訓練出的開源模型,多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等頂級開源模型,也與GPT-4o 和Claude 3.5-Sonnet 這樣世界頂級的閉源模型不相上下——而訓練後者的成本保守估計也要數億美元和幾十萬塊最強勁的英偉達H100。
可以想像它在人工智慧界引發的震撼—— 尤其是在AI 領域的研究人員、創業者、資金、算力和資源最紮堆的矽谷。不少矽谷AI 領域的重要人士都不會吝惜對DeepSeek 的稱讚,例如OpenAI 聯合創始人Andrej Kaparthy 和Scale.ai 的創始人Alexandr Wang。儘管OpenAI CEO Sam Altman 發了一條疑似影射DeepSeek 抄襲借鑒其它先進成果的推文(很快就被人回懟「是指把Google 發明的Transformer 架構拿過來用麼?),但DeepSeek 收穫的讚譽確實是廣泛而真誠的,尤其是在開源社區,開發者用腳投票。
Andrej Kaparthy讚揚Deepseek的技術報告值得一讀
許多中國人將DeepSeek – V3 視為“國貨之光”, 也是中國式創新的一個範式。確實,中國聰明的研究人員和工程師非常擅長「多快好省」 幹大事,在資源緊缺有限的情況下(很多時候我們也不想),透過技術方法的創新和精進,實現超預期的成果。 DeepSeek – V3 對高性能算力的依賴如此之小,將訓練和推理當作一個系統,給出了諸多新的技術思路,注重用工程思維高效解決算法和技術問題,集中力量辦大事,這確實是中國公司、中國團隊和中國研究人員更擅長的。 Alexandr Wang 從DeepSeek 總結的經驗是:美國人在休息,中國人在奮鬥,以更低的成本、更快的速度和更強大的戰鬥力追趕。
很有意思,美國科技界對中國比較友善的人士——其中包括馬斯克——經常總結中國在一些領域的成功經驗是聰明、勤奮和有方法,這當然沒什麼問題。但它解釋不了,至少在AI 領域解釋不了的一個問題是:中國的其它大模型公司和AI 人才同樣聰明、勤奮和擅長方法創新,他們的許多技術方法創新也卓有成就(DeepSeek 的分散式推理,我第一次注意到類似的創新是月之暗面的Mooncake),但為什麼沒有引發如此轟動的世界級效應?當然今後他們可能也會,但至少,為什麼這次是DeepSeek?
將DeepSeek 比喻成「AI 界的拼多多」 是偏頗的,認為DeepSeek 的秘方就是多快好省也是不全面的。中國的AI 公司大多缺卡,也因為缺卡而拼命搞架構創新,這點沒什麼不同。要知道,DeepSeek 在矽谷受到關注和追逐不是這兩週剛發生的事。早在2024年5月DeepSeek – V2發表的時候,它就以多頭潛在註意力機制(MLA)架構的創新,在矽谷引發了一場小範圍的轟動。 V2 的論文引發了AI 研究界的廣泛分享和討論。當時,一個非常有趣的現像是:X 和Reddit 上AI 從業者在討論DeepSeek – V2,同時,DeepSeek 在國內輿論場被描摹成了“大模型價格戰的發起者”,有點平行時空的感覺。
這或許能說明:DeepSeek 跟矽谷更有對話、交流的密碼,它的秘方應該是矽谷味兒的。
DeepSeek 與2022年之前的OpenAI 和DeepMind
如果非要給DeepSeek 在全球的人工智慧玩家裡找一個對標的話,請容許我加上一個前置條件:DeepSeek 有點像OpenAI 和DeepMind ——2022年之前的OpenAI 和DeepMind。
2022年之前的OpenAI 和DeepMind 是什麼樣子?非營利學術研究機構。儘管已經被微軟投資並轉型為了營利性公司,但當時OpenAI 的整體工作方式——至少是首席科學家Ilya Sustkever 和聯合創始人Andrej Kaparthy 為代表的那群人——仍然是非營利機構性質的,公司沒有對外的正式產品,2020年公佈的GPT-3 是一個學術研究成果,而且還開源了。 DeepMind 儘管名義上是一家新創公司,但無論是它獨立在倫敦存在的時期,還是被Google 收購但尚未與Google Brain 整合之前,都更像是一家研究機構的存在,無論AlphaGo 還是AlphaFold,都是研究項目,而不是產品。
DeepSeek 有自己的「產品」麼?不能說沒有,畢竟一般使用者也可以直接跟它的模型聊天,它還順帶手向開發者賣一賣低價的API。可是它連個行動APP 都沒有,看上去也沒對產品做什麼運營,不投放流量廣告,也不搞社群媒體行銷,也不給用戶準備各種貼心的prompt 範本。有網站,一般人也可以用,就夠了。光就這一點看DeepSeek 就很不中國AI 公司。在企業和開發者一側,除了基於架構創新的成本下降讓它狠狠砸了一錘子API 的價格,也看不到它搞什麼“加速計劃”、“開發者大賽”、“產業生態基金”等等很多企業都搞的專案。這只能說明:現在它是真心不打算做生意。
另一方面,DeepSeek 的研究人員密度是顯而易見的。量子位近期對DeepSeek – V3 論文作者的梳理,為我們了解這家公司的研究人員組成和特點提供了非常有價值的探索:清華、北大、北航等中國頂級高校的應屆博士畢業生、頂刊論文發表者、資訊競賽得獎者是DeepSeek 研究團隊的主力,甚至包括碩博在讀生。團隊構成極為年輕。 DeepSeek 創辦人梁文鋒接受36 氪旗下「暗湧」訪問時透露過招人標準:看能力,不看經驗,核心技術職位以應屆和畢業一兩年為主。這是典型的為研究人員,而非為產品、市場和工程等職位招人量身定制的標準。也像極了OpenAI 和DeepMind 早期的人才結構:用最年輕、最聰明、最不受拘束的頭腦,創造一些前人沒創造過的東西。
它營造了一種氛圍:這些最聰明的年輕人進入了一家外表看起來是公司的機構,然後在這裡繼續延續他們的學術生涯,可以調動比在純粹的學術機構(比如高校實驗室)多得多的計算資源和研究數據。科技公司的研究機構是科學家的“國中之國”,取代高等院校成為學術成果主要貢獻者的趨勢益發明顯。它越不受到公司商業目標的干擾,產生顛覆性學術成就的機會就越大。 Google 的研究人員提出生成式人工智慧的基礎- Transformer 架構是在Google 的AI 商業化目標尚不清晰的2017年,這兩年反而鮮有成果。 OpenAI 的GPT-3 和GPT-3.5 兩個關鍵時刻的誕生都是在聚光燈之外,而當它越來越像一家公司的時候,一切都亂了。
這也是DeepSeek 有別於中國的大多數AI 創業公司,反而更像是研究機構的地方。這輪AI 創業的創辦人基本上都是科學家和研究人員,但他們拿了VC 和PE 一輪又一輪的錢,就不能隨心所欲地搞研究和發paper,而必須聚焦產品化和商業化(這很可能不是他們最擅長的事)。科技巨頭養得起研究機構和科學家,但一旦要求研究成果迅速應用於產品和商業,團隊也會變得更複雜,而不再有純研究人員的簡單和清晰。美國的一些科技巨頭有不受商業目標幹擾的研究機構,但時間過久,難免沾染了學術界論資排輩的門閥氣息。都是由最聰明的年輕人組成的商業公司的研究機構,只在關鍵的幾個時間點出現過——幾年前的OpenAI 和DeepMind,以及現在的DeepSeek。
一個證據就是:DeepSeek 最好的「產品」除了模型,還有它的論文。無論是V-2 或V-3 的發布,DeepSeek 的兩篇對應論文都得到了來自全球研究者的仔細閱讀、分享、引用和大力推薦。相較之下,GPT-4 發布之後OpenAI 公佈的論文幾乎不能叫做論文。這年頭做模型的都在搶在各種benchmark 上拿名次,注重論文品質的已經不多了。而一篇詳盡、規範和實驗細節豐富的論文,仍能獲得業界額外的尊重。
當然這件事的一個重要前提是:DeepSeek 有錢,有不輸於巨頭、遠多於新創公司的彈藥。但並不是所有巨頭都願意有一個自己的DeepMind。
開源永遠是正確的
2023年初,科技媒體The Information 進行一輪中國可能出現哪些人工智慧明星新創公司的盤點。已經做出了一些成績的智譜和Minimax 在列,剛剛創建的百川智能、零一萬物和光年之外也被提及,該文章還特別提及了當時正準備再度創業尚名不見經傳的楊植麟。這裡面沒有Deepseek。
至少一年半前,沒人真的把DeepSeek 當成AI 的圈內人。儘管當時業界開始流傳DeepSeek 的母公司——從事私募量化技術的幻方握有數量豐沛的英偉達高性能顯卡,仍沒太多人相信它自己下場做大模型會有水花。現在,大家都在談論DeepSeek,而且走的又是「牆外開花牆內香」 的老路。
可以認為,從第一天開始,DeepSeek 與國內的諸多大模型新秀,選擇的就不是同一個戰場。它不拿融資(至少一開始不用拿),不用爭搶大模型四小龍六小虎的座次,不比國內的輿論聲勢(唯一接受暗湧的採訪,目的大概是招聘那些最熱血的聰明的科學家),不搞產品投放投流。它選擇的是與研究機構的本質最匹配的路徑——走全球開源社區,分享最直接的模型、研究方法和成果,吸引回饋,再迭代優化,自我進益。
開源社群迄今仍是AI 學術研究、分享和討論最熱烈、充分、自由和無國界的地方,也是AI 領域最不「內捲」的地方。 DeepSeek 從第一天就開源,應該是深思熟慮的。開源就要真開源,開得徹底,從模型權重、到資料集,再到預訓練方法,悉數公開,而高品質的論文也是開源的一部分。年輕聰明的研究人員在開源社群的亮相、分享和活躍具有高能見度。看見他們的人,並不乏一些全球AI 領域最重要的推動者。
聰明的年輕AI 研究人員+ 研究機構的氛圍(配上大廠的package)+ 開源社群的分享和交流,提高了DeepSeek 在全球AI 領域影響力和聲望。對於一家以產生AI 研究成果而非發布商業化產品為主要目標的機構而言,Hugging Face 和Reddit 就是最好的發布會會場,資料集和程式碼庫就是最好的demo,論文就是最好的新聞稿。 DeepSeek 基本上就是這麼做的,而且做得很講究。所以即便DeepSeek 的研究人員和CEO 鮮少接受媒體採訪,幾乎從不在論壇和活動上分享技術經驗和洞察,但你不能說它沒做行銷。反之,以證明中國AI 原創研究可以引領全球趨勢、招募最聰明的研究人員的目的來說,DeepSeek 的「行銷」是極其精準且有效的。
這裡值得提一句,過去的一年中國的開源大模型主要玩家確實在全球AI 研究和產品方面贏得了不少尊敬。一個越來越普遍的看法是:比起美國和歐洲的一些開源模型,中國的開源大模型在開源程度上更為徹底,更容易被研究人員和開發者直接拿過來上手研究或優化自己的模型。 DeepSeek 就是一個典型代表,除了DeepSeek,阿里巴巴的通義(Qwen)也被AI 研究領域普遍認為開源態度較為真誠,面壁智能的小模型Mini-CPM-Llama3-V 2.5 因為被斯坦福本科生團隊直接套殼也意外走紅了一把。
所以很有趣:國際AI 界特別是矽谷認為中國大模型的代表玩家是DeepSeek 和阿里巴巴,而我們自己覺得是豆包、可靈和所謂的AI 六小龍。客觀地說,就國際AI 界特別是矽谷能公正、積極地看待中國AI 創新能力和對全球社區的貢獻方面,DeepSeek 和阿里巴巴們做得更多。開源在任何時候都是一件正確的事。
V-3 是DeepSeek 的GPT-3 時刻
V-3 模型引發了破圈的國際反應,CNBC 的報導已經把V-3 及其背後的DeepSeek 視為中國AI 迎頭趕上美國的標誌。如果仔細觀察的話,並不難發現:DeepSeek 從隱密低調到備受關注,以及它從Coder 到V-3 模型的三次迭代,與OpenAI 從GPT-1 到GPT-3 的升級節奏和它引發的反響,是非常接近的。
我們先看看OpenAI——
2018年OpenAI 放出了GPT-1 模型,是它第一個基於Transformer 架構的預訓練模型,證明了語言模型是一個有效的預訓練目標,但品質和多樣性有限,引發了一定的學界關注,但整體反應平常。
2019年早些時候,OpenAI 推出GPT-2,生成文本的品質和多樣性大幅躍遷,基本上驗證了語言模型這條路的有效性,也引發了AI 領域廣泛的討論和關注。
2020年6月,OpenAI 發布GPT-3,以1750億參數成為當時世界上最大的語言模型,除了產生文字內容,還能進行翻譯、問答和持續對話和思考,成為了生成式人工智慧發展的里程碑。即便如此,GPT-3 仍然是實驗室計畫。
讓我們再看DeepSeek——
2023年11月,DeepSeek 先後發表了兩款開源模型DeepSeek Coder 和DeepSeek LLM, 只有少數人關注到了,而它們也在計算的效率和可擴展性上遇到了挑戰。
2024年5月,DeepSeek 發布了V-2,以混合專家模型(MoE)和多頭潛在註意力機制(MLA)技術的結合,大幅降低了模型訓練特別是推理的成本,且性能可以在很多維度與世界頂尖模型相比較,它開始引發AI 學術界和開發者的廣泛討論和推薦,這是DeepSeek 走進更多人視野的開始。
2024年12月,DeepSeek 發布了V-3,以OpenAI、Anthropic 和Google 百分之一的成本,實現了模型性能超越同類開源模型Llama 3.1 和Qwen 2.5,媲美閉源模型GPT-4o 和Claude 3.5 Sonnet的成績,引發轟動,成為世界大語言模式發展的里程碑。
可以說,V-3 是DeepSeek 的「GPT-3」 時刻,一個里程碑。
當然,DeepSeek 與OpenAI 在實現里程碑式躍遷的進程中區別在於——
OpenAI 在這一進程中一直致力於實現運算資源規模與成本的無限擴張,而DeepSeek 則一直致力於用盡可能低成本的運算資源實現更高的效率。
OpenAI 花了兩年時間達到GPT-3 時刻,而DeepSeek 用了一年摘得了V-3 的聖杯。
OpenAI 在GPT 路線上一直聚焦在預訓練的進步,而DeepSeek 則是訓練與推理並重——這也是全球模型技術發展趨勢的要求。
如果V-3 真的是DeepSeek 的GPT-3 時刻,那接下來會發生什麼事?是DeepSeek 的GPT-3.5──也就是ChatGPT時刻,或是其它?沒人知道,但有意思的事兒應該還在後頭。 DeepSeek 應該不會永遠是一個「電腦系Pro」的存在,它也理應為全人類的人工智慧事業做出更大的貢獻。
無論如何,DeepSeek 已經是中國最全球化的AI 公司之一,它贏得來自全球同行甚至對手的尊重的秘方,也是矽谷的。
來源:矽星人