DeepSeek R1豪賭「強化學習」：以3%的成本超越OpenAI

2025-01-27 Comments 0 Comment

中國AI新創公司深度求索（DeepSeek）推理大模型R1的發佈在AI社群引發了衝擊波，顛覆了人們對實現尖端AI性能所需條件的假設。與OpenAI的o1相比，其成本僅為3%-5%。這種開源模式不僅吸引了開發人員，也挑戰了企業重新思考其AI策略。

這對企業AI策略的影響是深遠的。隨著成本的降低和開放獲取，企業現在有了像OpenAI這樣昂貴的專有模型的替代品。 DeepSeek的發布可以使尖端AI功能的獲取民主化，使小型組織能夠在AI軍備競賽中有效競爭。

在一組第三方基準測試中，涵蓋從複雜問題解決，到數學和編碼的準確性方面，DeepSeek模型的表現優於Meta Llama 3.1、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。

微軟CEO薩蒂亞·納德拉（Satya Nadella）週三在瑞士達沃斯舉行的世界經濟論壇上表示：「看到DeepSeek的新模型，無論是他們如何真正有效地完成了一個開源模型來進行推理時間計算，還是計算效率方面，都令人印象深刻。

目前，該車型已飆升至HuggingFace上下載量最高的熱門車型。同時，在蘋果商店美區免費排行榜排名第四，超越Google Gemini和Microsoft Copilot等美國生成式AI產品。

轉向純粹強化學習

DeepSeek-R1偏離了廣泛用於訓練大型語言模型（LLM）的傳統監督微調（SFT）過程。 SFT是AI開發的標準步驟，涉及在精心策劃的資料集上訓練模型，教導它們逐步推理，通常被稱為思維鏈（CoT）。這被認為對提高推理能力至關重要。但DeepSeek透過完全跳過SFT來挑戰這個假設，轉而選擇依賴強化學習（RL）來訓練模型。

这一大胆举措迫使DeepSeek-R1开发独立的推理能力，避免了规范性数据集经常引入的脆弱性。虽然出现了一些缺陷，并导致团队在构建模型的最后阶段重新引入了有限数量的SFT，但结果证实了根本性的突破：仅强化学习就可以带来显著的性能提升。

微软AI前沿研究实验室的首席研究员Dimitris Papailiopoulos称，R1最让人惊讶的是它的工程简单性。他说：“DeepSeek旨在获得准确的答案，而不是详细说明每个逻辑步骤，从而在保持高水平效率的同时显著减少计算时间。”

埃默里大學（Emory University）資訊系統助理教授Hancheng Cao表示：“這可能是一個真正的均衡突破，對資源有限的研究人員和開發人員來說是件好事，尤其是來自南半球的研究人員。”

得益於開源

DeepSeek在很大程度上使用了開源。 DeepSeek最初為其專有聊天機器人開發AI模型，然後將其發布供公眾使用。人們對該公司的確切方法知之甚少，但它很快就將其模型開源。

為了訓練其模型，DeepSeek購買了10,000多塊英偉達GPU，隨後又擴大到50000塊。與OpenAI、Google和Anthropic等領先的AI實驗室相比，這明顯相形見絀，因為這些實驗室每個都有超過50萬塊GPU。

社群平台X的用戶Silver Spook表示：「感謝中國公司Deepseek，他們開發的DeepSeek-R1證明，生成式AI是一個被資本家誇大的巨大騙局，其實際價值不到550萬美元。」（註：英偉達工程師Jim Fan稱，DeepSeek在兩個月內以558萬美元的預算訓練了其基礎模型V3。

DeepSeek以有限的資源實現有競爭力的結果的能力，突顯了獨創性和足智多謀。此外，DeepSeek從一開始就非常具有創新性。引入了專家混合系統（MoE）和多頭潛在註意力（MhLA）。

DeepSeek-R1之所以帶來如此多的驚喜，是因為開源模型背後有著巨大的邏輯和動力。它們的免費成本和延展性是此類模型將在企業中獲勝的原因。

對於企業決策者來說，DeepSeek的成功突顯了AI領域更廣泛的轉變：更精簡、更有效率的開發實務越來越可行。一些組織可能需要重新評估與專有AI提供者的合作關係。

Meta首席AI科學家Yann LeCun稱，DeepSeek的成功突顯了保持AI模型開源的價值，讓任何人都能從中受益。這表明開源模式正在超越專有模式。 LeCun說：「他們提出了新的想法，並將其建立在其他人的工作之上。因為他們的工作是公開和開源的，每個人都可以從中獲利。這就是開放研究和開源的力量。」

社群平台X的用戶Niels Rogge表示：「有一家名為DeepSeek的中國公司，它基本上做了OpenAI最初打算做的事情。他們開源了一個經過大規模強化學習訓練的模型，擊敗了其他所有人，甚至還發表了一篇詳細介紹其過程的論文。

消費者受益

雖然DeepSeek的創新是突破性的，但它絕對不是建立了絕對的市場領先地位。因為它發表了研究成果，其他模型公司將從中學習並適應。 Meta和法國開源示範公司Mistral可能會落後，但他們可能只需要幾個月的時間就能趕上。

最終，消費者、新創公司和其他用戶將贏得最大的勝利，因為DeepSeek的產品將繼續將使用這些模型的價格推到接近零的水平。這種快速的商品化可能會給在專有基礎設施上投入巨資的領先AI提供者帶來挑戰，甚至是巨大的痛苦。

社群平台X的用戶Shubham Saboo表示：「DeepSeek R1 100%開源，比OpenAI o1便宜96.4%，同時提供類似的效能。OpenAI o1每1M輸出Token為60美元，而DeepSeek R1每1M輸出Token為2.19 美元。擁有200美元ChatGPT訂閱的人，請仔細考慮一下。

正如許多評論家所說，包括Meta的投資者兼前高管Chamath Palihapitiya，這可能意味著OpenAI和其他公司多年的營運支出和資本支出將被浪費。

OpenAI投資回報問題

這一切都引發了人們對OpenAI、微軟和其他公司所追求的投資計畫的重大質疑。

OpenAI耗資5000億美元的Stargate專案反映了其建造大型資料中心以支援其先進模型的承諾。在甲骨文和軟銀等合作夥伴的支持下，這項策略的前提是，實現通用人工智慧（AGI）需要前所未有的運算資源。

然而，DeepSeek以極低的成本展示了一種高性能模型，這對這種方法的可持續性提出了挑戰，引發了人們對OpenAI為如此巨大的投資帶來回報的能力的懷疑。

創業家兼評論家Arnaud Bertrand捕捉到了這種動態，將DeepSeek節儉、分散的創新，與OpenAI等其他開發商對集中、資源密集型基礎設施的依賴，進行了對比。

Bertrand稱，世界意識到以DeepSeek為代表的開發商在技術和創新方面已經趕上了OpenAI等傳統開發商，在某些領域甚至超過了他們。

位於多倫多的技術顧問Reuven Cohen自12月下旬以來一直在使用DeepSeek-V3。他說，它可以與OpenAI、Google和舊金山新創公司Anthropic的最新系統相媲美，而且使用起來也便宜得多。

Cohen說：“DeepSeek是我省錢的一種方式。這是像我這樣的人想要使用的技術。”

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

DeepSeek R1豪賭「強化學習」：以3%的成本超越OpenAI

2025-01-27 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆