DeepSeek如何彎道大超車:震撼矽谷巨頭擊潰出口管制
「當我們所有人都在過聖誕節的時候,一個中國實驗室卻發布了震撼世界的AI模型。這顯然具有像徵意義。長期以來,美國都在AI競爭中處於全球領先地位,但DeepSeek的最新模型卻在改變這個格局。
短短半個月時間,一款中國實驗室發表的AI模型就用令人難以置信的實力數據,震撼了整個矽谷AI領域。從科技巨頭到AI新貴再到技術專家,幾乎所有人都感受到了來自中國AI產業的強烈衝擊。更令人震驚的是,中國AI產業在遭受出口管制和算力匱乏情況下,實現了彎道超車。
橫空出世空降登頂
這個實驗室是來自中國的DeepSeek,2023年才剛創立。他們在去年年底發布了一個免費開源的大語言模型。根據該公司發表的論文,DeepSeek-R1在多個數學和推理基準測試中超越了行業領先的OpenAI o1等模型,更在性能、成本、開放性等指標方面壓倒了美國AI巨頭。
科技業需要用數據說話。在一系列第三方基準測試中,DeepSeek的模型在從複雜問題解決到數學和程式設計等多個領域的準確性上,超越了Meta的Llama 3.1、OpenAI的GPT-4o以及Anthropic的Claude Sonnet 3.5。
就在上週,DeepSeek又發布了推理模型R1,同樣在許多第三方測試中超越了OpenAI最新的o1。在AIME 2024數學基準測試中,DeepSeek R1取得了79.8%的成功率,超過了OpenAI的o1推理模型。在標準化編碼測試中,它展示了「專家級」的表現,在Codeforces上獲得了2,029的Elo評分,超過了96.3%的人類競爭對手。
Scale AI則使用了“人類最後考試”(Humanity’s Last Exam)來測試AI大模型,它採用來自數學、物理、生物、化學教授提供的“最難問題”,涉及最新的研究成果。在測試了所有最新的AI模型後,亞歷山大·王不得不讚歎,DeepSeek的最新模型「實際上是表現最出色的,或者至少與o1等最好的美國模型不相上下」。
毫不誇張地說,DeepSeek在美國AI產業引發了一場地震,更引發了媒體的爭相報道。幾乎所有的主流媒體和科技媒體,都報導了中國AI模型超過美國這段爆炸新聞。短短幾天時間,DeepSeek就已經成為蘋果應用商店排名第一的免費應用,力壓OpenAI的ChatGPT。
性能成本震撼巨頭
實打實的測試對比結果,不得不服。幾乎所有的AI巨頭、創投和技術人員都只能承認,在大模型這個領域,DeepSeek至少已經可以和OpenAI平起平坐,中國已經追上了美國。
微軟執行長薩蒂亞·納德拉(Satya Nadella)在世界經濟論壇上談到DeepSeek時表示:「DeepSeek的新模型令人印象深刻,他們不僅有效地建立了一個開源模型,能夠在推理計算時高效運行,而且在計算效率方面表現出色。
中國AI不僅是性能卓越,更是經濟實惠。讓矽谷諸多AI巨頭感到震撼和汗顏的是DeepSeek的低廉成本。 R1模型的查詢成本僅為每百萬個token 0.14美元,而OpenAI的成本為7.50美元,使其成本降低了98%。
真的是小米加步槍,DeepSeek只花了兩個月時間,耗費了不到600萬美元就打造了大語言模型R1,而且他們用的還是性能較弱的英偉達H800晶片。這意味著什麼?打個比方,中國AI公司居然開著普通轎車,就實現了彎道超車,在競賽中超越了矽谷巨頭們的超級跑車。
除了訓練成本低廉,DeepSeek的團隊組成也與矽谷諸多AI巨頭大相逕庭。 DeepSeek創辦人梁文峰在組成研究團隊時,並未尋找經驗豐富的資深軟體工程師,而是專注於來自北大、清華等頂尖大學的博士生。許多人曾在頂級學術期刊發表論文,並在國際學術會議上獲獎,但缺乏行業經驗。
「我們的核心技術職位主要由今年或過去一兩年畢業的人員擔任,」梁文峰在2023年接受媒體採訪時表示。這種招募策略有助於創造一個自由協作的公司文化,研究人員可以利用充足的運算資源來進行不拘一格的研究計畫。這與中國傳統網路公司形成鮮明對比,在後者中,團隊通常為資源爭鬥激烈。
沒有囤積頂級GPU,沒有招攬資深AI人才,沒有高昂的運行成本,一樣可以拿出最佳的大模型,DeepSeek的一切都讓矽谷AI巨頭們感到沮喪。
矽谷巨頭陷入沮喪
被挑戰的巨頭們是怎麼看待DeepSeek呢? OpenAI創辦人兼CEO奧特曼(Sam Altman)的說法讓人感覺有點酸。他在社群媒體上表示:「複製已知有效的方案相對容易,但探索未知領域則充滿挑戰。」這一言論被廣泛解讀為對DeepSeek的暗諷,暗示中國AI模型缺乏真正的創新,僅僅是在複製現有的有效方法。
Perplexity AI的CEO斯林尼瓦斯(Arvind Srinivas,印度人)從市場影響的角度來看待這一發布:「DeepSeek在很大程度上複製了OpenAI o1 mini並開源了它。」但他也讚歎了DeepSeek的快速步驟:「看到推理如此迅速地商品化,這有點瘋狂。」他表示,自己的團隊會將DeepSeek R1的推理能力引入Perplexity Pro。
Stability AI的創始人Emad Mostaque暗示DeepSeek的發布給資金更充裕的競爭對手帶來了壓力:「你能想像一個籌集了10億美元的前沿實驗室現在無法發布其最新模型,因為它無法擊敗DeepSeek嗎?
Meta AI首席科學家楊立昆(Yann LeCun,法國人)則強調中國人是依靠開源的優勢來取得成功。他在對DeepSeek的成功表示讚賞的同時強調,DeepSeek的成功並非意味著中國在AI領域超越美國,而是證明了開源模型正在超越閉源系統。
楊立昆表示,DeepSeek從開源研究和開源程式碼中受益匪淺,他們提出了新想法,並在他人工作的基礎上進行創新。由於他們的工作是公開和開源的,所有人都能從中獲益。這體現了開源研究和開源程式碼的力量。 他認為,DeepSeek的成功提現開源生態系統在推動AI技術進步中的重要性,顯示透過共享和協作,開源模型能夠實現快速創新和發展。
但Meta內部可沒有這麼淡定。過去幾天,職場匿名平台teamblind上有一個來自Meta員工的貼文被瘋傳。貼文稱Meta內部因為DeepSeek的模型,現在已經進入恐慌模式,不僅是因為DeepSeek的優秀表現,更是因為極低的成本和團隊組成。
「一切都因為DeepSeek-V3的出世,它在基準測試中已經讓Llama 4相形見絀。而且,管理階層正為GenAI研發部門的巨額投入而煩惱。 V3的成本,而且這樣的主管還有數十位,他們該如何向高層交代?
高效能演算法彎道超車
那麼,DeepSeek究竟是怎麼實現彎道超車,在算力明顯落後,成本只是零頭的情況下,打造出可以媲美甚至超越矽谷AI巨頭的大模型呢?
美國的出口管制嚴重限制了中國科技公司以「西方式」的方法參與人工智慧競爭,即透過無限擴展晶片採購並延長訓練時間。因此,大多數中國公司將重點放在下游應用,而非自主建構模型。但DeepSeek的最新發布證明,獲勝的另一條道路是:透過重塑AI模型的基礎結構,並更有效率地利用有限資源。
因為算力資源不足,DeepSeek只好開發更有效率的訓練方法。 「他們透過一系列工程技術優化了模型架構——包括客製化晶片間通訊方案、減少字段大小以節省內存,以及創新地使用專家混合模型(Mixture-of-Experts)方法,」Mercator研究所的軟體工程師溫蒂·張(Wendy Chang)表示。 “許多這些方法並非新鮮,但成功地將它們整合以生產尖端模型是相當了不起的成就。”
DeepSeek也在「多頭潛在註意力」(Multi-head Latent Attention,MLA)和「專家混合模型」方面取得了重大進展,這些技術設計使DeepSeek的模型更具成本效益,訓練所需的計算資源遠少於競爭對手。事實上,根據研究機構Epoch AI稱,DeepSeek的最新模型僅使用了Meta Llama 3.1模型十分之一的計算資源。
中國AI研究人員實現了許多人認為遙不可及的成就:一個免費、開源的AI模型,其性能可以媲美甚至超越OpenAI最先進的推理系統。更令人矚目的是他們的實現方式:讓AI透過試誤自我學習,類似人類的學習方式。
研究論文中寫道:“DeepSeek-R1-Zero是一個透過大規模強化學習(RL)訓練的模型,無需監督微調(SFT)作為初步步驟,展示了卓越的推理能力。”
「強化學習」是一種方法,模型在做出正確決策時獲得獎勵,做出錯誤決策時受到懲罰,而無需知道哪個是哪個。經過一系列決策後,它會學會遵循這些結果所強化的路徑。
DeepSeek R1是AI發展的一個轉捩點,因為人類在訓練中的參與最少。與其他在大量監督資料上訓練的模型不同,DeepSeek R1主要透過機械強化學習進行學習——本質上是透過實驗和獲得回饋來解決問題。這個模型甚至在沒有明確程式設計的情況下,發展出了自我驗證和反思等複雜能力。
隨著模型經歷訓練過程,它自然學會了為複雜問題分配更多的“思考時間”,並發展出捕捉自身錯誤的能力。研究人員強調了一個“頓悟時刻”,模型學會了重新評估其最初的問題解決方法——這是它沒有被明確編程去做的事情。
開源模型廣獲讚賞
值得一提的是,DeepSeek願意將其創新成果開源,使其在全球AI研究社群中獲得了更大的讚賞。 與專有模型不同,DeepSeek R1的程式碼和訓練方法在MIT許可證下完全開源,這意味著任何人都可以獲得、使用和修改模型,沒有任何限制。
對許多中國AI公司來說,開發開源模型是追趕西方競爭對手的唯一方式,因為這樣可以吸引更多用戶和貢獻者,幫助模型不斷成長。在OpenAI逐漸封閉化的當下,DeepSeek的開源得到了AI從業人員的交口稱讚。
英偉達資深研究員樊錦(Jim Fan)博士讚揚了DeepSeek前所未有的透明度,並直接將其與OpenAI的原始使命相提並論。 「我們生活在一個非美國公司保持OpenAI原始使命的時間線上——真正開放的、前沿的研究,賦能所有人,」樊錦指出。
樊錦指出了DeepSeek強化學習方法的重要性:“他們可能是第一個展示[強化學習]飛輪持續增長的開源軟體專案。」他還讚揚了DeepSeek直接分享“原始演算法和matplotlib學習曲線”,而不是業界更常見的炒作驅動公告。
遵循同樣的推理,但帶有更嚴肅的論證,科技企業家Arnaud Bertrand解釋說,競爭性開源模型的出現可能對OpenAI衝擊巨大,因為這會使OpenAI模型對付費意願強烈的高級用戶的吸引力降低,從而損害OpenAI的商業模式。 “這基本上就像有人發布了一款與iPhone相當的手機,但售價為30美元而不是1000美元。這是戲劇性的。”
出口管制面臨挑戰
這對英偉達來說,DeepSeek的橫空出世是個利空因素。許多AI產業人士不禁開始思考另一個問題:既然DeepSeek用上一代晶片的閹割版就可以訓練出最強勁的大模型,那麼科技巨頭們還需要繼續瘋狂燒錢搶購英偉達的最新GPU嗎?這個問題細思極恐。
眾所周知,因為美國政府的AI晶片禁運,中國無法購買英偉達最高性能的AI晶片,而H800則是高算力A100晶片的閹割版。與A100相比,H800的核心數量、頻率和顯存方面明顯較低,算力上降幅大約在10-30%之間,主要不需要頂級算力的場景,例如中等規模的AI訓練與推理任務。 H800的記憶體頻寬被限制在1.5 TB/s,而A100 80GB版本可達到2 TB/s,這將直接影響資料處理能力,尤其在深度學習任務中。
Scale AI的亞歷山大·王堅持認為,DeepSeek的晶片數量可能遠高於外界想像。他公開表示,自己認為DeepSeek至少擁有5萬塊H100,他們不會公佈具體數字。
H100的算力是A100的六到七倍,這款3萬美元起售的頂級GPU也是目前矽谷科技巨頭們爭先搶購的軍火。 Meta和微軟都超過採購了15萬塊H100,Google、甲骨文和亞馬遜都採購了5萬塊,馬斯克的xAI更部署了10萬塊H100組成的超級電腦集群用於訓練大預言模型Grok3。
亞歷山大·王進一步表示,未來中國AI產業可能會面臨更多挑戰,「未來他們將受到我們已經實施的晶片和出口管制的限制,難以再獲取更多晶片。」他上週在《華盛頓郵報》購買了整版廣告,寫道“美國必須贏下這場AI戰爭!”