僅憑500萬美元的AI模型DeepSeek是如何震驚矽谷的?
近期,DeepSeek火熱全球,媒體報道甚多。今日早間,我們問DeepSeek對你分析最詳細的文章是哪一篇,DeepSeek指出這一篇,所以我們把它翻譯出來,以颯讀者。

文章原題:DeepSeek全解析:崛起的人工智慧引擎挑戰產業巨頭
全文如下:
我們是否即將迎來一場由相對的「弱勢」所驅動的AI革命? DeepSeek是一家成立於2023年的相對不為人知的中國新創公司,憑藉其尖端的開源模型和低得驚人的推理成本,在全球AI界掀起了波瀾。
儘管起步低調,但在新發布的DeepSeek R1模型的推動下,DeepSeek已經飆升至應用程式排行榜的首位,許多用戶稱之為「令人震驚的好」。
本文深入探討了DeepSeek的背景故事,探索其迅速崛起背後的技術,以及它在撼動中國和全球AI格局時面臨的挑戰。
DeepSeek的興起
DeepSeek由梁文峰於2023年5月創立,他曾領導中國對沖基金幻方(High-Flyer Quant)。由於幻方完全承銷了DeepSeek,這家新創公司可以自由地進行雄心勃勃的AI研究,而不會受到短期回報的壓力。 DeepSeek位於中國杭州,聚集了一支由中國大學頂尖畢業生組成的年輕團隊,強調強大的技術技能而非傳統的工作經驗。
從第一天起,DeepSeek就以兩個核心目標為導向:以透明、開源的方式推動通用人工智慧(AGI);透過激進的定價和成本效益高的技術,使先進的AI更容易獲得。
這種開源精神和顛覆性定價讓現有企業感到不安,促使OpenAI、Meta等AI巨頭,以及包括字節跳動、騰訊、百度和阿里巴巴在內的中國主要科技公司重新評估自己的成本、策略和研究方法。
DeepSeek的里程碑
自2023年成立以來,DeepSeek一直處於穩定的創新軌道上,推出的模型不僅在成本和效率上與更大的競爭對手競爭,而且經常削弱他們的競爭對手。從早期專注於編碼到通用AI的進步,每個版本都以獨特的方式突破了界限。以下是迄今為止塑造DeepSeek旅程的里程碑。
DeepSeek編碼器
DeepSeek編碼器(DeepSeek Coder)於2023年11月推出,是該公司的第一個重要版本,針對具有開源編碼模型的開發人員。在商業代碼產生工具變得越來越昂貴的時候,它提供了一種免費有效的替代方案。該模型可以產生、完成和調試程式碼,在獨立開發人員和新創公司中迅速獲得吸引力。它的開源性質鼓勵了客製化和實驗,進一步提高了它的受歡迎程度。
編碼器的發佈為DeepSeek實現AI訪問民主化的使命奠定了基調。雖然與後來的模型相比相對簡單,但DeepSeek Coder證明了可訪問的AI工具可以在不增加成本的情況下提供強大的性能,為未來的創新奠定了基礎。
DeepSeek大語言模型(67B)
隨著其編碼模型的成功,DeepSeek又發布了一個67B參數的通用語言模型。儘管與GPT-4等競爭對手相比,該模型的規模較小,但它在摘要、情緒分析和對話式AI等任務中表現出色。透過優化參數效率,它在許多任務中與較大的模型相配媲美,甚至超越,同時保持了精簡的計算足跡。
DeepSeek大語言模型顯示了該公司開發多功能AI工具的能力,這些工具在不影響品質的情況下優先考慮成本效益。它也鞏固了DeepSeek作為創新顛覆者的聲譽,能夠在預算範圍內提供具有競爭力的模型。
DeepSeek V2
DeepSeek V2於2024年5月發布,是該公司的轉捩點,引發了中國AI市場的價格戰。透過以競爭對手的一小部分成本提供高效能的語言模型,DeepSeek迫使位元組跳動、騰訊和百度等主要參與者降低價格。此舉使更廣泛的企業和開發人員能夠使用先進的AI。
從技術上講,V2比其前身有了顯著改進,提供了增強的文本生成、情感分析等功能。其性能和可負擔性的結合引起了全球AI界的關注,證明了小公司也可以與資金雄厚的科技巨頭競爭。
DeepSeek-Coder-V2
2024年末,DeepSeek憑藉DeepSeek-Coder-V2回歸本源,這是一種高階編碼模型,擁有2,360億個參數和128K Token的上下文視窗。此次升級使其能夠以令人印象深刻的準確性處理複雜的程式設計任務,例如分析大量的程式碼庫或解決複雜的調試挑戰。
Coder-V2脫穎而出的是它的定價。從每百萬輸入Token 0.14美元和每百萬輸出Token 0.28美元開始,它成為最具成本效益的編碼工具之一。該模型鞏固了DeepSeek以競爭對手所需成本的一小部分提供高品質AI解決方案的聲譽。
DeepSeek V3
2024年底推出的DeepSeek V3,標誌著該公司迄今為止最先進的一步,引進了6,710億個參數和兩項突破性創新:
混合專家系統(MoE):每項任務僅啟動370億個參數,大大降低了運算成本,同時保持了高效能。
多頭潛在註意力(MLA):增強了模型處理細微關係和同時管理多個輸入的能力,使其對需要上下文深度的任務非常有效。
雖然被OpenAI和Meta的高調發布所掩蓋,但DeepSeek V3因其規模、成本效益和架構創新的結合而在研究界悄然獲得了尊重。它也為DeepSeek迄今為止最重要的成就DeepSeek R1奠定了技術基礎。
DeepSeek R1
DeepSeek於2025年1月21日推出了DeepSeek R1,邁出了迄今為止最大膽的一步。由於其強大的推理能力、較低的營運成本和對開發人員友好的功能,此開源AI模型已成為DeepSeek對美國科技巨頭最嚴峻的挑戰。

主要特點
混合式專家架構(MoE):
R1擴展了V3中首次出現的MoE概念,僅啟動特定查詢所需的子網路。這允許在不消耗硬體資源的情況下,在要求苛刻的任務上實現高效能。
純強化學習(RL):
雖然許多競爭對手的AI模型嚴重依賴監督微調,但R1包含了一個強大的RL管道,透過不斷的迭代和回饋來學習推理,而不是僅僅依賴標記的資料集。
海量上下文視窗:
R1能夠在一個請求中處理多達128000個Token,可以輕鬆處理複雜的程式碼審查、法律文件分析或多步驟數學問題等擴展任務。
高輸出能力:
此模型一次最多可以產生32000個Token,非常適合編寫深度報告或剖析大量資料集。
前所未有的成本效益:
DeepSeek R1的推理成本估計僅為OpenAI模型費用的一小部分(約2%)。對於獨立開發者和企業來說,這可能會改變遊戲規則。
性能基準
DeepSeek R1在數學和邏輯測驗中取得了顯著成績,在MATH基準測驗中的得分為91.6%,在AIME上的得分為52.5%,超過了OpenAI的o1預覽版。儘管它在許多編碼任務中與OpenAI的o1相媲美,但在某些特定的程式碼場景中,它仍然略落後於Claude 3.5 Sonnet。然而,R1能夠顯示詳細的逐步推理,這是一個顯著的優勢,特別是在調試、教育用途和研究方面。

大型語言模型(LLM)比較
也許最能說明其成功的是用戶採用率。 R1於2025年1月26日將DeepSeek推上了App Store的榜首,它在谷歌Play Store上的下載量迅速達到了100萬。用戶認為最近推出的「DeepThink+Web搜尋」功能是其突出的特性之一,即使是OpenAI也尚未完全趕上這一領域。

DeepSeek的創新
DeepSeek V3和R1都利用了混合專家(MoE)架構,該架構僅啟動其6710億個參數中的一個子集。可以把它想像成部署數百名專業的微觀專家,在需要他們的技能時介入。這種設計確保了計算效率,同時保持了高模型品質。
DeepSeek採用純粹強化學習(RL)法進一步使其與眾不同。這些模型透過連續的回饋迴路自主學習和改進,實現自我校正和適應性。這種機制顯著提高了他們解決問題的能力,特別是對於需要深入推理和邏輯分析的任務。
除了MoE,多頭潛在註意力(MLA)提高了模型同時處理多個資料流的能力。透過將焦點分佈在幾個「注意力頭」上,他們可以更好地識別上下文關係並處理細微的輸入,即使在處理單一請求中的數萬個Token時也是如此。
DeepSeek的創新也擴展到模型蒸餾(model distillation,一種在機器學習和深度學習中使用的模型壓縮技術),將其較大模型的知識轉移到更小、更高效的版本,如DeepSeek-R1 -Distill。這些緊湊的模型保留了大型模型的大部分推理能力,但所需的計算資源要少得多,這使得高級AI更容易使用。
AI社群的回饋
AI領域的幾位知名人士對DeepSeek R1的顛覆性潛力進行了權衡:
史丹佛大學AI研究總監Sarah Chen博士指出,DeepSeek R1挑戰了高效能AI需要大量運算資源的觀點。透過以極低的成本提供頂級結果,DeepSeek為跨產業獲取先進AI技術的民主化打開了大門。
麻省理工學院的James Miller教授強調,DeepSeek R1的強化學習框架和進階搜尋功能是AI訓練方法新標準的標誌。他認為,這些創新可能會推動整個產業重新思考AI模型是如何訓練和優化的。
Insilico Medicine執行長Alex Zhavoronkov讚揚了DeepSeek R1強化學習結構背後的生物學靈感。他將其描述為在邏輯自我評估和適應性方面邁出的重要一步,其影響遠遠超出了當前的AI研究範式。
Andreessen Horowitz的共同創辦人Marc Andreessen將DeepSeek R1描述為「AI的斯普特尼克時刻」(人們意識到自己受到威脅和挑戰,必須加倍努力,迎頭趕上的時刻),也是他所見過的最令人驚嘆和印象深刻的突破之一。他還讚揚了其開源性質,稱其為“獻給世界的深刻禮物”。這番評論突顯了該模型的重要性及其對產業的影響。

當然,也有懷疑論者。有些人對培訓數據中的潛在偏見和地緣政治影響表示擔憂。雖然其開源精神受到廣泛讚譽,但還是有所擔憂。
商業模式和合作夥伴關係
DeepSeek的融資策略與大多數AI新創公司不同。該公司完全由梁文峰創立的成功的量化對沖基金幻方提供資金。這種獨特的安排使DeepSeek能夠在沒有股東要求的壓力或滿足激進的A輪里程碑的情況下運作。
擺脫了創投支持的新創公司的典型限制,DeepSeek可以優先考慮長期研究和創新,而不是立即商業化。到目前為止,該公司還沒有表現出追求大規模商業機會的緊迫性,而是專注於完善其AI模型和推動創新。
DeepSeek的突出功能之一是其令人難以置信的低API定價,使高級AI更容易訪問。例如,R1的起價僅為每百萬輸入Token 0.55美元,每百萬輸出Token 2.19美元,這一價格遠低於OpenAI或其他美國AI實驗室的產品。這種可負擔性幫助DeepSeek在註重成本的開發人員、新創公司和小型企業中開闢了一個利基市場,否則他們可能很難負擔得起尖端的AI工具。透過提供這種預算友好的解決方案,DeepSeek將自己定位為更昂貴的專有平台的可行替代品。
DeepSeek與AMD的合作也在其成功中發揮了關鍵作用。透過使用AMD Instinct GPU和開源ROCM軟體,DeepSeek能夠以非常低的成本訓練其模型,包括V3和R1。此次合作挑戰了業界對英偉達高階GPU或GoogleTPU的依賴,證明高效培訓不需要使用最昂貴的硬體。此次合作證明了DeepSeek專注於具有成本效益的創新,並能夠利用策略合作克服硬體限制。
這些因素共同強調了DeepSeek在可負擔性、技術卓越性和獨立性之間的平衡能力,使其能夠與規模更大、資金更充足的競爭對手有效競爭,同時將可訪問性保持在最前沿。
競爭格局
DeepSeek將自己定位為AI市場的顛覆者,與世界上最大的美國AI實驗室和中國的科技巨頭競爭。
挑戰OpenAI、Google和Meta
OpenAI、Google和Meta擁有豐富的資源、良好的聲譽,並且可以接觸到一些世界頂尖的AI人才。這些公司以數十億美元的預算運營,使他們能夠在硬體、研究和行銷方面進行大量投資。相較之下,DeepSeek採用了更有針對性的方法,專注於開源創新、更長的上下文視窗和顯著降低的使用成本。
DeepSeek的模型,如R1,在數學和推理任務等特定領域提供了相當或更優的性能,而成本通常只是其中的一小部分。這使得DeepSeek成為那些認為專有AI工具過於昂貴或限制性過強的組織的一個有吸引力的替代方案。透過強調可及性和透明度,DeepSeek挑戰了只有大預算參與者才能提供最先進的AI解決方案的說法。
顛覆中國科技巨頭
DeepSeek的崛起也擾亂了位元組跳動、騰訊、百度和阿里巴巴等中國科技巨頭。這些公司在中國的AI生態系中根深蒂固。然而,DeepSeek的開源理念和激進的定價策略使其能夠開拓出一個獨特的利基市場。透過提供經濟高效的模型,DeepSeek迫使這些公司重新評估自己的定價和開發策略。
DeepSeek與這些資金雄厚的巨頭競爭的能力,突顯了其在中國和全球舞台上作為強大挑戰者的地位。
開源R1倡議
DeepSeek影響力日益增長的一個證明是Hugging Face的Open R1(開源R1)計劃,這是一個雄心勃勃的項目,旨在複製完整的DeepSeek R1訓練管道。如果成功,這項措施將使世界各地的研究人員能夠適應並改進類似R1的模型,進一步加速AI領域的創新。
雖然這突顯了DeepSeek開源策略的影響,但也暴露了潛在的漏洞。透過向AI社群開放其模型,DeepSeek邀請了那些在其突破基礎上進行競爭的人。然而,這種開放性是AI開發民主化和促進協作的刻意舉措,這一理念使DeepSeek與更專注於專有技術的參與者區分開來。
透過其顛覆性的定價、開源承諾和競爭能力,DeepSeek在科技巨頭主導的市場中蓬勃發展,證明創新和效率甚至可以與最大的預算相媲美。
DeepSeek的下一步是什麼
DeepSeek的迅速崛起伴隨著可能塑造其未來的挑戰。對先進GPU的有限訪問,造成了計算差距,可能會阻礙其擴展R1等模型的能力。雖然其MoE架構最大限度地提高了效率,但隨著時間的推移,與擁有尖端硬體的公司競爭可能會變得更加困難。
此外,DeepSeek在市場認知方面也面臨障礙。為了獲得國際信任,它必須始終如一地證明其可靠性,特別是對於企業級部署。同時,快速發展的AI格局意味著OpenAI或Meta等競爭對手可以透過新的創新超越它。
儘管存在這些挑戰,DeepSeek還在專注於其DeepThink+Web搜尋功能,該功能支援即時查找,將其定位為獨特的競爭對手。該公司還可以加強強化學習微調,開發針對特定行業的模型,並建立新的全球合作夥伴關係以擴大其能力。如果DeepSeek能夠克服這些障礙,它就有可能繼續成為AI領域的顛覆性力量。
最後的總結
在短短幾年內,DeepSeek已經從杭州一家未知的研究驅動型新創公司發展成為AI領域的全球顛覆者,撼動了OpenAI、Meta和Google等產業巨頭。透過結合開源協作、混合專家(MoE)等創新架構和競爭激烈的定價,DeepSeek重新定義了我們對AI開發的看法。 DeepSeek V3和開創性的DeepSeek R1等模型證明,AI的成功並不總是需要數十億美元的預算。相反,效率、適應性和策略夥伴關係可以提供與最昂貴的模型相媲美的結果。
DeepSeek的旅程之所以更加非凡,是因為它在AI社群中產生了巨大的衝擊。行業專家和研究人員一直表示,他們對一家規模較小的公司如何能夠與資金充足的組織開發的一些最先進的模型競爭,甚至超越這些模型感到驚訝。
DeepSeek沒有放緩的跡象。它最近推出的DeepThink+Web Search可以實現即時線上查找,在某些功能上甚至領先於OpenAI。展望未來,該公司可能會專注於:
改進強化學習管道,以進一步增強推理能力。
開發針對醫療保健、金融和教育等領域量身定制的行業特定模型。
與全球硬體供應商建立新的合作夥伴關係,以克服出口限製造成的運算差距。
隨著用戶對DeepSeek R1的採用率持續飆升,該公司正在迫使老牌AI玩家適應。事實證明,效率和創新可以與原始運算能力和龐大的預算相媲美,為AI的可能性樹立了新的先例。
DeepSeek能否在激烈的競爭和市場信任問題等挑戰中保持這一勢頭還有待觀察。然而,有一點是清楚的:DeepSeek已經證明了自己是一支不可忽視的力量,在推動AI的邊界的同時,也為全球的小型企業、研究人員和開發人員提供了支持。
對於那些對低成本創新如何徹底改變AI工作流程感興趣的人來說,DeepSeek是一個值得關注的名字。下一波變革性突破很可能來自這個雄心勃勃的「弱者」。