139位中國天才,做出讓矽谷震撼的公司
平替版Claude、和GPT-4「可以一戰」、震撼矽谷的「國產之光」…2025年初,AI圈的首炸,屬於脫胎於量化公司的DeepSeek。能用十分之一的價格、不到150人的研發團隊,對打矽谷頭牌大模型,DeepSeek的秘密何在?
當全球「AGI信仰」正因科技放緩遭遇挑戰,「AI六小虎」的光芒開始褪色,沉寂的大模型領域急需一個振奮人心的新故事。
作為開年AI圈首炸,DeepSeek頂著「國產之光」的新王冠橫空出世,震撼了海內外的一眾科技大佬。
2024年12月,DeepSeek發表了最新的V3開源模型,評測成績不僅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等頂級開源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等頂級閉源模型掰手腕。
更令人振奮的是,DeepSeek的故事很大程度上,打破了困擾國產大模型許久的算力晶片限製瓶頸。
V3模型是在2000塊英偉達H800 GPU(針對中國市場的低配版GPU)上訓練完成的,而矽谷大廠模型訓練普遍跑在幾十萬塊更高性能的英偉達H100 GPU上。
這也讓DeepSeek的訓練成本得以被大幅壓縮。 SemiAnalysis數據顯示,OpenAI GPT-4訓練成本高達6,300萬美元,而DeepSeek-V3成本只有其十分之一不到。
12月底,雷軍開出千萬年薪挖角DeepSeek研究員羅福莉的新聞,也讓人們把更多目光投向了這個神秘團隊。
據報道,DeepSeek包括創辦人梁文鋒在內,僅有139名工程師和研究人員。與之對比,OpenAI有1200名研究人員,Anthropic則有500多位研究人員。
2024年,這家鮮少做行銷、創始團隊極為低調的公司,也遊離在主流視野之外。第一次引起普遍關注,還是因6個月前,DeepSeek首次掀起了大模型價格戰,而被稱為「AI界的拼多多」。
如今,沒有尋求外部融資、創辦人有「囤卡富翁」之稱、團隊全是「清北等名校年輕人出品」——一串吸睛的標籤,讓這家AI創業圈的隱形巨頭走向台前。
這次,擺脫英偉達晶片束縛、技術平權的故事,輪到DeepSeek來講了。
在矽谷「出圈」了
平替版Claude、和GPT-4「可以一戰」、國產之光…2025年初的最大驚喜,屬於脫胎於量化公司的DeepSeek。
相較於大模型公司的大手筆投流,或如Kimi、豆包等頭部玩家還在用巨額營銷換C端用戶認知,DeepSeek的火熱出圈,讓故事有了「自上而下」的另一種講法。
2024年12月底,DeepSeek V3大模型發表後便完全開源。模型計算數據顯示,DeepSeek V3雖然文字生成類別任務較弱,但其程式碼、邏輯推理和數學推理能力都名列前茅。
V3大模型上線後,DeepSeek同時上線了53頁論文,將模型的關鍵技術與訓練細節和盤托出。
論文揭露:V3整個訓練過程只花了不到280萬個GPU小時。相較之下,Llama 3 405B的訓練時間是3080萬GPU小時。考慮到V3訓練晶片使用的是低配版的H800 GPU,其訓練成本也大幅縮減。這也動搖了產業內,「大模型能力跟晶片限制強綁定」的普遍認知。
OpenAI創始團隊成員Andrej Karpathy發文讚歎:DeepSeek-V3效能高過Llama3最強模型,且耗費資源僅十分之一,「未來或許不需要超大規模的GPU叢集了」。
這也為長期受算力限制的創業團隊們,提出了一個新解法——即便在算力有限的情況下,使用高品質數據、更好的演算法,同樣能訓練出高性能大模型。
Meta科學家田淵棟驚嘆道:“FP8預訓練、MoE、預算非常有限的強大性能、從CoT中提取以進行引導……哇!這是偉大的工作!”
效能更強、速度更快的模型上線,也把DeepSeek的API呼叫定價進一步打了下來。近日,官方宣布DeepSeek的tokens價格調整為每百萬輸入tokens 0.5元(快取命中)/2元(快取未命中),每百萬輸出tokens 8元。
V3的發布,也引發了國內專業開發者社群的熱烈討論。不少AI應用層創業者、從業者讚歎:“V3是用過的國產大模型裡,編碼能力最強的。”
有AI從業者在業務場景中應用後認為:“DeepSeek是目前國內唯一一個可以跟4o、Sonnet平起平坐的國產LLM(大語言模型)。”
能從系統角度,讓模型越來越便宜,也為最近日趨焦灼的捲卡、卷算力、捲商業落地的大模型之戰,提供了一種新的解法。
偏愛競賽生,學院派管理
那麼,能打造出如此低成本、高品質的模型,DeepSeek的團隊又是怎樣一群人呢?
事實上,早在DeepSeek出圈前,AI業界對它的技術實力評價就非常高。只因為公司不融資,創辦人鮮少露面,公司不做C端應用,以至於大眾認知度偏弱。
從公開資料來看,DeepSeek團隊最大的特色就是名校、年輕。有大模型領域的獵人頭告訴《財經天下》,當下「C9」院校的高端人才各家都在爭搶。 “DeepSeek更著重宣傳,符合他們家年輕化,求知欲的價值觀。”
即使是團隊leader級別,年紀也多在35歲以下。該獵人頭表示,DeepSeek管理職很少內部提升,大多挖的是有經驗的,也會卡年齡。 “我們這邊推薦的幾個leader崗,超過40歲沒有特別大的優勢,人家看都不願意看。”
DeepSeek創辦人梁文鋒在接受36氪採訪時,曾透露過招募標準:看能力,不看經驗,核心技術職位以應屆和畢業一兩年為主。
衡量年輕畢業生「優秀」與否的標準,除了院校,還有競賽成績,「基本金獎以下就不要了」。
DeepSeek也不偏好資深的技術人。例如,DeepSeekMath的三位核心作者,朱琪豪、邵智宏、Peiyi Wang,是在博士實習期間完成了相關的研究工作。 V3研究成員代達勱,2024年才剛從北大獲得博士學位。
在管理上,DeepSeek採取的是淡化職級、極為扁平的文化,將團隊一直控制在150人左右的規模。用粗暴砸錢、給卡,相當扁平和「學院派」的管理方式,挽留人才。
梁文鋒將這種組織形式形容為「自下而上」「自然分工」:「每個人都有自己獨特的成長經歷,都是自帶想法的,不需要push他……當一個idea顯示出潛力,我們也會自上而下地去調配資源。
「只招1%的天才,去做99%中國公司做不到的事情。」曾經面試過DeepSeek的應屆生如此評價其招募風格。
這種人才選擇和管理模式,某種程度上很像OpenAI。二者都比較像是純粹的研究機構──早期不融資,不做應用,不考慮商業化。
在當下AI大模型市場漸趨飽和之下,DeepSeek也因不爭搶排名座次,不造輿論聲勢,重用應屆生,專注做底層技術優化,成為了國內為數不多還在招攬有“AGI信仰”人才的公司。
實際上,從DeepSeek創立之初,它的履歷便像個產業「異類」。
2023年,DeepSeek的AI產品正式對外亮相。此前數年,該公司曾對該產品內部“孵化”許久,並對外招聘過文科人才,職位定位為“數據百曉生”,提供歷史、文化、科學等相關知識來源。
DeepSeek的母公司是梁文鋒在2015年創立、量化基金起家的幻方量化。作為一個“80後”,梁文鋒本科、研究生都就讀於浙江大學,擁有資訊與電子工程學系本科和碩士學位。
幻方量化也是頭部量化基金的「例外」:多數量化基金創始班底,都或多或少有海外對沖基金的履歷。唯獨幻方完全靠著本土班底起家,獨自摸索著長大──這跟DeepSeek 的用人風格也極為相似。
2017年,幻方量化宣稱實現投資策略全面AI化。 2019年,其資金管理規模超100億,成為國內量化私募「四巨頭」之一,也曾一度是國內首家突破千億私募的量化大廠。
當幻方量化規模節節攀升時,梁文鋒卻開始轉移視野。
在业界,幻方一直以敢于在硬件上投入著称,以支撑其交易系统的实施。2017年前后,梁文锋开始涉足AI相关探索,探索孵化AI项目“萤火虫”。2018年,“萤火虫”超级计算机对外正式亮相,并称计算机占地面积为数个篮球场,前后投入超过10亿元。
2021年,在梁文鋒參與的論文中提到,他們正在部署的螢火二號系統,“配備了1萬張A100GPU晶片”,在性能上接近DGX-A100(英偉達推出的人工智慧專用超級電腦),但成本降低了一半,同時能耗減少了40%——業界通常認為,1萬枚英偉達A100晶片是做自訓大模型的算力門檻,當時國內超過1萬枚GPU的企業不超過5家。
GPU晶片的豐厚儲備,也為幻方量化接下來的轉型提供了基礎。
2023年5月,梁文鋒實控的AI研發機構北京「深度求索」成立,隔年DeepSeek正式上線。從這時起,幻方量化也開始主動縮減資金規模,不再參與量化基金第一梯隊的競爭。
2024年10月,幻方量化向投資者公告稱,計劃逐步將對沖產品投資部位降低至零。該公司部分對沖系列產品規模已降至千萬元以下。至2025年初,公司資金管理規模已小於300億,退出了業界前六名。
最像OpenAI的中國公司
從量化基金轉型後,能在短時間內衝上AI頭部玩家,DeepSeek的「神奇」技術在其53頁的論文中,也並不是秘密。
界面新闻报道,V3模型主要采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。目前,零一万物、谷歌、Inflection AI都已将这种技术引入模型训练与推理中。
此外,在預訓練階段,對表現影響有限的地方,DeepSeek選擇了極致壓縮。而在後訓練階段,對模型擅長的領域,他們又傾注全力提升。
核心人才也帶來了關鍵的技術創新。量子位元報道,2024年5月發布的DeepSeek-V2中,其創造性地提出了一種“新型注意力”,在Transformer架構的基礎上,用MLA(Multi-head Latent Attention)替代了傳統的多頭注意力,大幅減少了計算量和推理顯存。
其中,高華佐和曾旺丁為MLA架構做出了關鍵創新。高華佐目前只知道是北大物理系畢業,這個名字在「大模型六小虎」之一的階躍星辰專利資訊中,也可以看到。
DeepSeek-V2还涉及了另一项关键成果——GRPO。这是PPO的一种变体RL算法,显著减少了训练资源的需求。在开源大模型阿里Qwen 2.5的技术报告中,GRPO技术也有所体现。
這些技術創新,也為當下有些「困窘」的國內大模型未來發展,提供了新的解題思維。
特別是2024年下半年,長文本市場競爭已在位元組的「飽和式攻擊」下逐漸塵埃落定。 AI圈中出現了一種無奈共識:在大廠射程範圍內,做類ChatGPT產品已經沒有機會,必須做出差異化。
大模型競賽也進入了下一段更艱鉅的賽程,成為了一場拼資源的“戰爭”,要拼資金、人才密度、數據算力能力。
去年還風光無限的「大模型六小虎」正在加速尋找垂類場景商業化機會。近期,MiniMax轉戰文生視頻,宣布要跟Sora掰手腕;智譜則瞄準智能體(Agent)市場,從做智能體商店到邀測PC端智能體;百川智能逐漸專注於醫療市場;零一萬物則宣布深耕零售行銷業務,不再追求AGI。
而DeepSeek能夠奇襲,很大程度源自於和頭部大模型公司保持距離,遠離融資的熱鬧和商業化的壓力。
在梁文鋒為數不多的發聲中,他表示DeepSeek創立初期,就在接觸投資圈後清醒認識到,「很多VC對做研究有顧慮,他們有退出需求,希望盡快做出產品商業化。而按照我們優先做研究的思路,很難從VC那裡獲得融資」。
他也對外表達過“短期內沒有融資計劃”,並認為當下面臨的問題“從來不是錢,而是高端晶片(短缺)”。
梁文鋒也明確提出,矽谷對DeepSeek「驚嘆」的原因--「因為這是一個中國公司,在以創新貢獻者的身份,加入到他們遊戲裡去。畢竟大部分中國公司習慣follow,而不是創新。 」
「中國也要逐步成為貢獻者,而不是一直搭便車。」梁文峰說。 「我們已經習慣摩爾定律從天而降,躺在家裡18個月就會出來更好的硬體和軟體,Scaling Law(規模定律)也在被如此對待。但其實,這是西方主導的科技社群世代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽略了它的存在。
梁文鋒認為,中國AI的發展,同樣需要這樣的生態。 “很多國產晶片發展不起來,也是因為缺乏配套的技術社區,只有第二手消息,中國必然需要有人站到技術的前沿。”
作者 | 趙小天