DeepSeek持續震撼矽谷創辦人採訪被「拿放大鏡」看

2025-01-26 Comments 0 Comment

「神秘東方力量」DeepSeek為矽谷帶來的影響，還在不斷泛起漣漪——剛剛，DeepSeek-R1躋身大模型競技榜前三名。以開源、便宜20倍的「身價」與ChatGPT-4o（2024.11.20）並列。

在複雜提示詞/風格控制榜單上，R1位列第一。

目前結果來看，它在各個維度上都保持領先。

在衡量模型程式開發能力的WebDev分榜上，R1位列第二，與閉源的Claude 3.5 Sonnet相差不到40分。

網友實測體驗表示，確實如此，R1在30場battle只輸了4、5次。

另一邊，矽谷對DeepSeek的好奇不減。

畢竟，它可是個「副業」。

創辦人梁文峰的中文訪談更被翻譯成英文，「拿著放大鏡」逐字認真閱讀。

他提出的觀點也被總結成箴言，在網路上流傳。

真正的差距不是1年或2年，而在於是原創還是模仿。

圖靈獎得主LeCun也為DeepSeek做出中肯評價：

它代表了開源的力量。

這意味著，開源模型正在超越專有模型。

值得一提的是，同為開源領域代表的Meta剛剛公佈了2025年在AI領域的佈局計劃：650億美元，投算力、投人才。

有爆料稱，Meta內部已經因為DeepSeek感到恐慌。

“他們讓OpenAI一次又一次看清自己”

所以，在矽谷視角裡，他們更關心DeepSeek的哪些資訊？

最首要的莫過於，DeepSeek如何賺錢。

挖到的資訊有點出乎意料，或許DeepSeek還沒想賺錢的事。

控股DeepSeek的是幻方量化，他們有一群頂尖科學家，有充裕的算力資源，DeepSeek其實是一個「副產物」。

在2023年末我就聽說他們在做DeepSeek。即使在當時的中國，還沒有人把他們當一回事。

其次，為何DeepSeek能成功。梁文峰在2023年5月2024年7月接受暗湧的兩次採訪，也都被老外扒出來了。

他們最關心的五個面向分別是：

1.創新第一性原則：與其他致力於快速商業化的中國AI公司不同，DeepSeek專注於基礎的AGI研究和創新。他們認為，中國必須從全球人工智慧發展的「搭便車者」轉變為「貢獻者」。梁文峰說，創新不完全是商業驅動的，還需要好奇心和創造欲。

2.革命性架構： DeepSeek V2中採用的新型MLA（多頭潛在註意力機制）架構，把顯存佔用降到了過去最常用的MHA架構的5%-13%，實現了成本大幅降低。它的推理成本僅為Llama 370B的1/7、GPT-4 Turbo的1/70。

這並不是為了挑起一場價格戰——他們只是在「成本上稍微有點利潤」來定價。這種創新架構持續應用於V3和R1模型。

3.獨特的公司文化和人才策略： DeepSeek保持著一個完全自下而上的組織結構，為研究人員提供無線的運算資源，優先看創造熱情而不是證書。他們的突破性創新來自年輕的本土人才－中國本土的應屆畢業生和年輕技術人才，而非海外招募。

4.致力於開源：儘管產業開始趨向於閉源模型（OpenAI和Mistral），DeepSeek仍致力於開源，並認為開源對於建立一個強大的技術生態系統至關重要。梁文峰認為，在顛覆性技術面前，閉源形成的護城河是短暫的。

他們的真正價值在於建立一個具備創新能力的組織。

5.底層運算挑戰：儘管擁有足夠的資金和技術，DeepSeek也面臨來自底層運算的挑戰和壓力。目前公司還沒有新的融資計畫。梁文峰認為，面臨的主要限制因素不是資金，而是高端算力的使用權，這些晶片對於訓練先進AI模型至關重要。

除此之外，訪談中的許多細節也被網友認真品味。

原文中，梁文峰被問：怎麼看待做量化同時做大量基礎研發，不燒錢嗎？

他回答：一件令人興奮的事，或許不能單純用錢衡量。就像家裡買鋼琴，一來買得起，二來是因為有一群急著在上面彈奏樂曲的人。

海外網友感慨：

這群人是一群有點理想化的“技術狂”，他們堅信自己能搞出通用人工智慧（AGI），而且他們確實有這個資源和天賦。我真是太喜歡他們了！

另外也避免不了一些對比：

梁文峰展現出一種完全不同的心態，他們的成功當之無愧，我也很期待看到他們一次又一次讓「OpenAI」認清自己。

當然放眼AI領域的整體發展，能夠看到DeepSeek，對所有人而言或許都是興奮的。

儘管我忍不住覺得他們有點天真，畢竟在商業化上他們有點「自斷後路」。但看到一個團隊堅持理想並取得成功，確實讓人覺得很欣慰。

隨著R1的驚艷亮相，DeepSeek正在兌現自己所說的一切。拓寬技術邊界、堅持開源、專注於技術開發…

那麼，DeepSeek是如何走到現在的呢？

用AI做量化，再回到AI

梁文峰本碩均就讀於浙江大學資訊與電子工程學專業。

2008年，梁文峰畢業，開始帶領團隊使用機器學習等技術探索全自動量化交易。

當時量化在國內還是個新鮮概念，能否賺錢是個未知數。 2010年滬深300股指期貨推出，量化投資迎來春天。據公開資訊顯示，梁文峰團隊正是乘上這股東風，很快自營資金超過5億元。

同時，深度學習浪潮的齒輪開始轉動，人工智慧率先在矽谷爆發。

2015年，梁文峰與校友共同創立幻方量化。僅僅1年後，他們就推出了旗下第一個AI模型，第一份由深度學習產生的交易部位上線執行，使用GPU進行計算。

2017年，幻方量化宣稱實現投資策略全面AI化。

2018年，幻方量化確立AI為公司的主要發展方向。

AI加持下，幻方量化旗下基金報酬率遠超過同期滬深300指數。 2019年，資金管理規模突破百億元。

2019年，梁文鋒在當年的金牛獎頒獎典禮上，發表主題演講《一名程式設計師眼里中國量化投資的未來》，這是他少見的公開演講。

演講全文的確充滿「程式設計師視角」：

量化公司是沒有基金經理人的，基金經理人就是一堆伺服器。人來做投資決策的時候，它是一種藝術，要憑感覺。程式來決策的時候，它是一種科學，它有最優解。

也是這一年，幻方量化開始大規模佈局AI算力，搭建「螢火一號」集群。 2021年，「螢火二號」落成。這樣的算力基建，成為如今DeepSeek快速奔跑的底層支撐。

2021年，幻方量化成為國內首家突破千億規模的量化私募大廠，被稱為國內量化私募「四大天王」之一。

值得一提的是，在幻棋量化的官網上，AI基礎科學研究始終佔據重要位置，包括在大模型浪潮前。

幻方量化曾表示，多年來，該公司堅持把營收的大部分投入人工智慧領域，建立領先的AI硬體基礎設施，進行大規模的研究，探索人類未知的奧秘。

我們相信幾乎所有的創新都是從大膽嘗試和點滴累積中孕育而來。

2023年，幻方量化將下場做大模型的獨立新組織命名為深度求索，並強調將專注於做真正人類等級的人工智慧。

目標不是復刻ChatGPT，而是研究和揭秘AGI的更多未知資訊。

DeepSeek的故事也開始於這一刻。

一個80後程式設計師在攪動中國量化市場後，完成資金積累，組建起年輕蓬勃的團隊，似乎又回到了他原本的起點、回到AI，但產生的能量正在全球掀起駭浪。

還有一件事

值得一提的是，幻方量化也長期向慈善機構捐贈，官網披露公司員工「一隻平凡的小豬」個人捐助1.38 億元，支持15 家慈善機構的23 個公益項目，在全國範圍內幫助弱勢群體，促進社會的公平與發展。

爆料消息稱，這個員工就是梁文峰本人。

參考連結：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1i6dlvj/inside_deepseeks_bold_mission_ceo_liang_wenfeng/

[2]https://www.threads.net/@yannlecun/post/DFNvN3euNEV?xmt=AQGzPcW8Rr7oXT6-rHIoKzBNL5x2PNnaprvJBL6uIhgoQA

[3]https://finance.eastmoney.com/a/202501223304127161.html

[4]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

WONGCW 網誌

記錄生活經驗與點滴

DeepSeek持續震撼矽谷創辦人採訪被「拿放大鏡」看

2025-01-26 Comments 0 Comment

相關

發表迴響取消回覆

2025 年 1 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分享此文：

相關

發表迴響取消回覆