DeepSeek是怎麼練成的?萬字解析成長史
這幾天,DeepSeek 全球爆火,但由於這家公司過於低調,未有宣發,使得大眾對這家極具潛力的科技企業知之甚少——無論是其創立背景、業務範圍,還是產品佈局。在整理完所有資料後,我便撰寫了此篇江湖錄:目前的AI 玩家,是怎樣的背景,在卷那些事兒,以及在招哪些人
以後硬派創新會越來越多。現在可能還不容易被理解,是因為整個社會群體需要被事實教育。當這個社會讓硬派創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。 —— DeepSeek 創辦人梁文鋒
本篇是江湖錄的第二篇,也可能是有關DeepSeek 的最全的歷史過往。
本文所有DeepSeek 相關圖片,除非備註,均源自官方發布管道及其應用程式截圖。特別鳴謝「暗湧」發布的兩篇對梁文鋒先生的深度訪談,其中的真知灼見為本文提供了寶貴的研究素材。
去年此時,幻方量化的朋友找到我,問:「要不要在國內做大模型?」而我,只單純的喝了半下午的咖啡。果然,人生還是看選擇的。
這裡所提的幻方量化,便是DeepSeek 的出資方,或者說母體。

所謂量化,便是不由人力,而用演算法進行決策的投資機構。幻方量化的成立時間不算長,起步於2015 年。到了2021 年,時年六歲的幻方量化,其資產管理規模便已突破千億,被譽為中國「量化四大天王」 之一。
幻方的創始人梁文鋒,也正是日後DeepSeek 的創立者,是個「非主流」的80 後金融領導者:他沒有海外留學經歷,也不是奧林匹克競賽獲獎者,畢業於浙江大學電子工程係人工智慧專業,土生土長的技術專家,行事低調,每天「看論文,寫程式碼,參與小組討論」。
梁文鋒的身上沒有傳統企業老闆的習氣,更像一位純粹的「技術極客」。多位業內人士和DeepSeek 的研究員,給了梁文鋒極高的評價:「兼具強大的infra工程能力和模型研究能力,又能調動資源」、「既可以從高處做精準判斷,又可以在細節上強過一線研究員」的人,同時有著「令人恐怖的學習能力」。
早在成立DeepSeek 之前,幻方便已開始在AI 產業進行了長遠佈局。 2023 年5 月,梁文鋒在接受暗湧採訪時提到: 「2020 年OpenAI 發布GPT3 後,人工智慧發展的方向已經非常清晰,算力將成為關鍵要素;但即便2021 年,我們投入建設螢火二號時,大部分人還是無法理解」。
基於這個判斷,幻方開始建構起自己的算力基建。 「從最早的1張卡,到2015年的100張卡、2019年的1000張卡,再到一萬張,這個過程是逐步發生的。幾百張卡之前,我們託管在IDC,規模再變大時,託管就沒辦法滿足要求了,就開始自建機房。
之後,《財經十一人》報道,「國內擁有超過1 萬枚GPU 的企業不超過5 家,而除幾家頭部大廠外,還包括一家名為幻方的量化基金公司」。而通常認為,1 萬枚英偉達A100 晶片是做自訓大模型的算力門檻。
梁文鋒在先前的訪談中,也提到了一個很有趣的點:很多人會以為這裡邊有一個不為人知的商業邏輯,但其實,主要是好奇心驅動。
DeepSeek 初見
在2023 年5 月接受暗湧採訪時,當被問及“前不久,幻方發公告決定下場做大模型,一家量化基金為什麼要做這樣一件事?”
梁文鋒的回答擲地有聲:「我們做大模型,其實跟量化和金融都沒有直接關係。我們獨建了一個名為深度求索的新公司來做這件事。幻方的主要班底裡,很多人是做人工智慧的。為什麼要做的問題。
並非出於商業利益驅動,也非追逐市場風口,單單只是對AGI 技術本身的探索渴望, 以及對“最重要、最困難的事” 的執著追求,“深度求索” 這一名稱在2023年5月已正式確認。 2023年7月17日, “杭州深度求索人工智慧基礎技術研究有限公司” 註冊成立。
2023年11月2日,DeepSeek 交了首篇答案卷:DeepSeek Coder 程式碼大模型開源發布。這個模型包括1B,7B,33B 多種尺寸,開源內容包含Base 模型和指令調優模型。

在當時,在開源模型中,Meta 的CodeLlama 是業界標竿。而DeepSeek Coder 一發布,比起CodeLlama,便展示出多方位領先的架勢:在代碼生成上,HumanEval 領先9.3%、MBPP 領先10.8,DS-1000 領先5.9%。
要知道,DeepSeek Coder 是7B 模型,而CodeLlama 卻是34B。另外,經過指令調校後的DeepSeek Coder 模型更是全面超越了GPT3.5-Turbo。

不僅在程式碼生成上可圈可點,DeepSeek Coder 也在數學和推理上秀了一波肌肉。

3日後,也就是2023 年11 月5 日,DeepSeek 透過其微信公眾號,連續發布了大量招募內容,職位包括:AGI 大模型實習生、資料百曉生、資料架構人才、高級資料擷取工程師、深度學習研發工程師等招募訊息,開始積極擴充團隊規模。
正如梁文鋒所言,DeepSeek 在人才招募上「必卡的條件」 是「熱愛,紮實的基礎能力」, 並且強調「創新需要盡可能少的干預和管理,讓每個人有自由發揮的空間和試錯機會。
模型頻傳,實踐開源
在DeepSeek Coder 一鳴驚人之後,DeepSeek 將目光投向主戰場:通用大模型。
2023年11月29日,DeepSeek 發表了其首款通用大語言模型DeepSeek LLM 67B。這款模型對標的是Meta 的同等級模型LLaMA2 70B,並在近20個中英文的公開評測榜單上表現更佳。尤其突出的是推理、數學、程式設計等能力(如:HumanEval、MATH、CEval、CMMLU)。

DeepSeek LLM 67B 同樣選擇了開源路線,並支援商用。為了進一步彰顯其開源的誠意和決心,DeepSeek 史無前例地同步開源了7B 和67B 兩種不同規模的模型,甚至將模型訓練過程中產生的9 個checkpoints 也一併公開,供研究人員下載使用。這種近乎「傾囊相授」 的操作,在整個開源社群中極為罕見。
為了更全面、更客觀地評估DeepSeek LLM 67B 的真實能力,DeepSeek 的研究團隊還精心設計了一系列“新題” 進行“壓力測試”,這些題目涵蓋了匈牙利高中數學考試題、Google 指令跟隨評測集、LeetCode 週賽題等高難度、高區分度的測驗。測試結果令人振奮,DeepSeek LLM 67B 在樣本外泛化能力方面表現出了驚人的潛力,其綜合性能甚至直逼當時最先進的GPT-4 模型。

2023年12月18日,DeepSeek 開源了文生3D 模型DreamCraft3D:可從一句話產生高品質的三維模型,實現了AIGC 從2D 平面到3D 立體空間的跨越。例如,使用者輸入:“奔跑在樹林中,搞笑的豬頭和孫悟空身體的混合形象”,DreamCraft3D 便可以輸出高品質的內容:

從原理上來說,這個模型先完成了文生圖,然後再根據2D 概念圖,腦部補出整體的幾何結構:

在之後的主觀評比中,相較於先前的生成方法,超過90% 的使用者表示DreamCraft3D 的生成品質更具優勢。

生成品質用戶主觀評價
2024年1月7日,DeepSeek 發布了DeepSeek LLM 67B 技術報告。這份報告有40+ 頁,內容包含了DeepSeek LLM 67B 的多項細節,包括自建Scaling Laws、完整的模型對齊實踐細節、以及全方位的AGI 能力評估體係等等。
報告網址:https://arxiv.org/abs/2401.02954

2024年1月11日,DeepSeek 開源了國內首個MoE(混合專家架構)大模型DeepSeekMoE:全新架構,支援中英,免費商用。 MoE 架構在當時普遍被認為是OpenAI GPT-4 效能突破的關鍵所在,而DeepSeek 自研的MoE 架構,在2B、16B、145B 等多個尺度上均領先,同時其運算成本也非常值得稱道。

2024年1月25日,DeepSeek 发布了 DeepSeek Coder 技术报告。这份报告对其训练数据、训练方法、以及模型效果进行了全面的技术剖析。在这份报告中,我们可以发现其首次构建了仓库级代码数据,并用拓扑排序解析文件之间依赖,显著增强了长距离跨文件的理解能力。而在训练方法上,增加了Fill-In-Middle方法,大幅提升了代码补全的能力。
報告網址:https://arxiv.org/abs/2401.14196

2024年1月30日,DeepSeek 開放平台正式上線,DeepSeek 大模型API 服務啟動測試。註冊即送1,000 萬token,介面相容OpenAI API 接口,有Chat/Coder 雙模型可用。此時,DeepSeek 開始在技術研發之外,開始探索技術服務商的道路。
2024年2月5日,DeepSeek 發表了另一款垂直領域模型-數學推理模型DeepSeekMath。這款僅有7B 參數的模型,卻在數學推理能力上直逼GPT-4,在權威的MATH 基準榜單上,力壓群雄,超越了一眾參數規模在30B-70B 之間的開源模型。 DeepSeekMath 的問世,充分展現了DeepSeek 在垂直領域模型研發上的技術實力和前瞻佈局。

2024年2月28日,為進一步掃除開發者使用DeepSeek 開源模型的顧慮,DeepSeek 發布了開源政策FAQ,對模型開源許可、商業使用限制等常見問題進行了詳細解答,以更透明、更開放的姿態擁抱開源:

2024年3月11日,DeepSeek 開源發表了多模態大模型DeepSeek-VL。這是DeepSeek 在多模態AI 技術上的初步嘗試,尺寸為7B 與1.3B,模型和技術論文同步開源。

2024年3月20日,幻方AI & DeepSeek 再次受邀參加NVIDIA GTC 2024 大會,創辦人梁文鋒發表了題為《和而不同:大語言模型價值觀對齊解耦化》的技術主題演講。探討瞭如”單一價值觀的大模型與多元社會文化之間的衝突“,“大模型價值觀對齊解耦化”,“解耦化價值觀對齊的多維度挑戰” 等問題。展現了DeepSeek 在技術研發之外,對AI 發展的人文關懷和社會責任的思考。
2024年3月,DeepSeek API 正式推出付費服務,徹底引爆了中國大模型市場的價格戰的序幕:每百萬輸入Tokens 1 元,每百萬輸出Tokens 2 元。

2024年,DeepSeek 順利通過中國大模型備案,為其API 服務的全面開放掃清了政策障礙。
2024年5月,DeepSeek-V2 通用MoE 大模型的開源發布,價格戰正式開始。 DeepSeek-V2 使用了MLA(多頭潛在註意力機制),將模型的顯存佔用率降低至傳統MHA 的5%-13%,同時,也獨闢蹊徑地研發了DeepSeek MoE Sparse 稀疏結構,將模型的計算量大大壓縮。憑藉於此,而這個模型保持以「1元/百萬輸入,2元/百萬輸出」的API 價格。
DeepSeek 的影響力非常大。對此,SemiAnalysis 首席分析師認為,DeepSeek V2論文「可能是今年最好的一篇」。同樣的,OpenAI 前員工Andrew Carr 則認為論文“充滿驚人智慧”,並將其訓練設置應用於自己的模型。
需知:這是標GPT-4-Turbo 的模型,而API 價格只有後者的1/70

2024年6月17日,DeepSeek 再度發力,開源發布了DeepSeek Coder V2 程式碼大模型,並宣稱其程式碼能力超越了當時最先進的閉源模型GPT-4-Turbo。 DeepSeek Coder V2 延續了DeepSeek 一貫的開源策略,模型、程式碼、論文全部開源,並提供了236B 和16B 兩種版本。 DeepSeek Coder V2 的API 服務也同步上線,價格依舊是「1元/百萬輸入,2元/百萬輸出」。

2024年6月21日,DeepSeek Coder 支援程式碼在線上執行。在同一天,先是Claude3.5 Sonnet 發布,並上新Artifacts 功能,自動產生程式碼並直接在瀏覽器上執行。同一天的,DeepSeek 官網的程式碼助手也上線了同樣的功能:產生程式碼,一鍵運作。

回顧一下這段時間的大事記:

持續突破,全球矚目
2024 年5 月,DeepSeek 透過MoE 開源模型DeepSeek V2,一戰成名:對標GPT-4-Turbo 的效能,但價格只要1塊錢/百萬輸入,這是GPT-4-Turbo 的1/70。那時,DeepSeek 成了業內知名的“價格屠夫”,進而,智譜、字節、阿里…等主流玩家迅速跟進,紛紛降價。也是那時,適逢又一輪GPT 封號潮,大批AI 應用,開始初嘗國內模型。
在 2024 年七月,DeepSeek 創辦人梁文鋒,再次接受暗湧的報道,對於這次價格戰進行了正面回應:「非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後會計成本定價。
可見,與眾多牌桌選手掏錢做補貼不同的是,DeepSeek 在這個定價下,是有利潤的。
有人會說:降價很像在搶用戶,網路時代的價格戰通常如此
對此,梁文鋒也回應到:「搶用戶並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI ,都應該是普惠的、人人可以用得起的東西。
那麼,故事也就由著梁文鋒的理想主義,繼續展開。
2024年7月4日,DeepSeek API 上線128K上下文價格不變。模型的推理成本,與上下文長度密切相關。所以很多模型,對於這個長度,限制嚴苛:初版GPT-3.5 只有4k 的上下文。
而此時,DeepSeek 在保持價格不變的前提下(每百萬輸入Tokens 1 元,每百萬輸出Tokens 2 元),將上下文長度,從之前的32k 提升到了128k。

2024年7月10日,全球首屆AI 奧數競賽(AIMO)結果揭曉,DeepSeekMath 模型成為了Top 團隊的共同選擇,獲獎的Top4 團隊不約而同地選擇了DeepSeekMath-7B 作為其參賽模型的基礎,並在競賽中取得了令人矚目的成績。

2024年7月18日,在「全球大模型競技場」(Chatbot Arena)榜單上,DeepSeek-V2 榮登開源模型榜首,超越了Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2- 27B 等一眾明星模型,成為開源大模型的新標竿。

2024年7月,DeepSeek 持續廣納賢才,面向全球招募AI 演算法、AI Infra、AI Tutor、AI 產品等多個方向的頂尖人才,為未來的技術創新和產品發展儲備力量。
2024年7月26日,DeepSeek API 迎來重要升級,全面支援續寫、FIM(Fill-in-the-Middle)補全、Function Calling、JSON Output 等一系列進階功能。其中的FIM 功能非常有趣,即:使用者給出開頭和結尾,大模型來填補中間的,非常適合編程的過程中,填充準確函數代碼。以撰寫斐波那契數作為範例:

2024年8月2日,DeepSeek 創新地引入了硬碟快取技術,使得API 價格斬向腳踝。之前API 價格,每百萬token 只需1 元。而現在,一旦命中緩存,API 費用直接降至0.1 元。

這個功能,在連續對話,以及批次處理任務時,非常實用。


2024年8月16日,DeepSeek 開源發布了其數學定理證明模型DeepSeek-Prover-V1.5,這款模型在高中和大學數學定理證明測試中,均超越了多款知名的開源模型。

2024年9月6日,DeepSeek 开源发布了 DeepSeek-V2.5 融合模型。之前,DeepSeek 主要提供的是款模型:Chat 模型聚焦通用对话能力,Code 模型聚焦代码处理能力。而这次,两款模型合二为一,升级成了 DeepSeek-V2.5,更好的对齐了人类偏好,并还在写作任务、指令跟随等方面实现了显著提升。

2024年9月18日,在LMSYS 最新榜單上,DeepSeek-V2.5 再次上榜,並領先國內模型,在多個單項能力上,也都刷新了國內模型的最佳成績。

2024年11月20日,DeepSeek 在官網上線了DeepSeek-R1-Lite,這是一款推理模型,媲美o1-preview,也為之後V3 的後訓練,提供了足量的合成數據。

2024年12月10日,DeepSeek V2 系列迎來收官之作-DeepSeek-V2.5-1210 最終微調版發表。此版本透過後訓練,全面提升了包括數學、程式碼、寫作、角色扮演等在內的多方能力。

DeepSeek 的網頁APP 也隨著這個版本的到來,開放了連網搜尋功能。

2024年12月13日,DeepSeek 在多模态领域再次发力,开源发布了多模态大模型 DeepSeek-VL2。DeepSeek-VL2 采用了 MoE 架构,视觉能力得到了显著提升,有 3B、16B 和 27B 三种尺寸,在各项指标上极具优势。

2024年12月26日,DeepSeek-V3 開源發布:訓練成本估算只有550 萬美金。 DeepSeek-V3 在性能上全面對標海外領軍閉源模型,生成速度也大幅提升。

API 服務定價進行了調整,但同時為新模型設定了長達45 天的優惠體驗期。


這裡有一個來自「賽博禪心」的詳實解讀:DeepSeek-V3 是怎麼訓練的|深度拆解
2025年1月15日,DeepSeek 官方App 正式發布,並在iOS/Android 各大應用市場全面上線。

2025年1月20日,接近春節,DeepSeek-R1 推理模型正式發布並開源。 DeepSeek-R1 在效能上全面對齊OpenAI o1 正式版,並開放了思維鏈輸出功能。同時,DeepSeek 也宣布將模型開源License 統一變更為MIT 許可證,並明確用戶協議允許“模型蒸餾”,進一步擁抱開源,促進技術共享。
當日,「賽博禪心」便提供了一份詳實解讀:DeepSeek-R1 是怎麼訓練的|深度拆解
後面,這個模型大火,開創了時代:
DeepSeek 完全指南:這到底是怎樣的存在?
於是,截止到了2025年1月27日,DeepSeek App 成功超越ChatGPT,登頂美國iOS 應用程式商店免費應用程式下載榜首,成為了現象級的AI 應用程式。

2025年1月27日,除夕凌晨1點,DeepSeek Janus-Pro 開源發布。這是一個多模態模型,名稱來自古羅馬神話中的雙面神「雅努斯」(Janus):它同時面向過去與未來。這也代表了模型的兩種能力——既要進行視覺理解,又要進行影像生成,並在多個排行中霸榜。

DeepSeek 的爆火,旋即引發了全球科技震動,甚至直接導致了NVIDIA 股價暴跌18%,全球科技股市市值蒸發了約1 兆美元。華爾街和科技媒體紛紛驚呼,DeepSeek 的崛起,正在顛覆全球AI 產業格局,對美國科技巨頭構成了前所未有的挑戰。

除夕之夜,美股上演了出中國紅
DeepSeek 的成功,也引發了國際社會對中國AI 技術創新能力的高度關注和熱烈討論。美國總統川普罕見地公開讚揚DeepSeek 的崛起是“積極的”,並認為這是一個給美國敲響的“警鐘”。微軟CEO Satya Nadella 和OpenAI CEO Sam Altman 也對DeepSeek 表示讚賞,稱其技術「非常令人印象深刻」。
當然,我們也要知道,他們的讚揚一方面是對DeepSeek 實力的認可,另一方面則是各有心思磨刀霍霍,比如Anthropic 一遍認可著DeepSeek 的成績,一邊號召美國政府加強對華芯片管制。

Anthropic CEO 發萬字檄文:DeepSeek 崛起,白宮應加碼管制
總結與展望
回顧DeepSeek 的這兩年,真所謂一部“中國式奇蹟”:從名不見經傳的創業公司,到如今在全球AI 舞台上大放異彩的“東方神秘力量”,DeepSeek 用實力和創新,書寫了一個又一個「不可能」。
這場技術遠徵的深層意義,早已超越商業競爭的範疇。 DeepSeek用事實宣告:在人工智慧這個關乎未來的策略領域,中國企業完全有能力攀登核心技術高地。
川普口中的”警鐘”,Anthropic暗藏的忌憚,恰恰印證了中國AI力量的不可忽視:不僅能乘風破浪,更在重塑潮水的方向
產品發布大事記
2023年11月2日: DeepSeek Coder 程式碼大模型
2023年11月29日: DeepSeek LLM 67B 通用模型
2023年12月18日: DreamCraft3D 文生3D 模型
2024年1月11日: DeepSeekMoE MoE 大模型
2024年2月5日: DeepSeekMath 數學推理模型
2024年3月11日: DeepSeek-VL 多模態大模型
2024年5月: DeepSeek-V2 MoE 通用大模型
2024年6月17日: DeepSeek Coder V2 程式碼大模型
2024年9月6日: DeepSeek-V2.5 融合通用與程式碼能力模型
2024年12月13日: DeepSeek-VL2 多模態MoE 大模型
2024年12月26日: DeepSeek-V3 全新系列通用大模型
2025年1月20日: DeepSeek-R1 推理模型
2025年1月20日: DeepSeek 官方App (iOS & Android)
2025年1月27日: DeepSeek Janus-Pro 多模態模型
職業機會
截止到2025年2月2日,DeepSeek 有以下職位在招,看看是否會與你有緣。
履歷投遞:talent@deepseek.com
你可以說是看到賽博禪心的招募資訊而來的,畢竟咱公眾號的讀者本來就都很硬派。
但這並沒什麼用,DeepSeek 挑人,還是更看價值觀和技術。
