OpenAI首席研究官：DeepSeek獨立發現了o1的一些核心思路

2025-01-30 Comments 0 Comment

春節這幾天，國內外AI 圈都被DeepSeek 刷了螢幕。英偉達的股市震盪更是讓全世界看得目瞪口呆。簡單來說，DeepSeek 最近發布的兩個模型—— DeepSeek-V3 和DeepSeek-R1 以很低的成本獲得了比肩OpenAI 同類模型的性能。

這引發了市場對AI 硬體需求的擔憂，投資者擔心未來對英偉達高階晶片的需求可能會減少。

同時，關於DeepSeek 技術創新的討論也非常多。許多人認為，DeepSeek 在硬體受限的條件下被逼走出了一條不同於OpenAI 等狂堆算力的道路，用一系列技術創新來減少模型對算力的需求，同時獲得性能提升。

這些成就得到了包括Sam Altman 在內的AI 領導人物的肯定。

隨後，OpenAI 首席研究長Mark Chen 也發文了。他表示，DeepSeek 確實獨立發現了一些OpenAI o1 也在用的核心理念，不過，這並不代表OpenAI 在算力上的高投入是不合理的。

貼文原文如下：

恭喜Deepseek 開發出了o1 等級的推理模型！他們的研究論文表明，他們獨立發現了一些我們在通往o1 的路上發現的核心概念。

不過，我認為外在的反應有些過度誇大，特別是在成本方面的說法。擁有兩個範式（預訓練和推理）意味著我們可以在兩個維度而不是一個維度（低成本）上優化某項能力。

但這也意味著我們有兩個可以擴展的維度，我們打算在這兩個維度上都積極投入算力！

隨著蒸餾研究日益成熟，我們也發現降低成本和提昇能力的愈發解耦。能夠以更低成本（特別是在更高延遲的情況下）提供服務，並不代表就能產生更好的能力。

我們將繼續提升以更低成本提供模型服務的能力，但我們對我們的研究路線圖保持樂觀，並將繼續專注於執行它。我們很高興能在本季和今年為大家帶來更好的模型！

短短幾段話，Mark Chen 表達了好幾層觀點，我們讓DeepSeek-R1 來解讀一下每段話的言外之意：

總之，和Sam Altman 一樣，Mark Chen 的發言也是在重塑外界對OpenAI 的信心，預告今年會帶來更好的模式。

此外，OpenAI研究科學家Noam Brown也努力弱化外界對OpenAI和DeepSeek的對比，但大家似乎都不買單。

另外，Mark Chen 提到的「外界的反應有些過度誇大，特別是在成本方面的說法」這一點最近也被很多人討論，尤其是「DeepSeek-v3 訓練成本僅為558 萬美元」這一說法。其實，DeepSeek-v3 的技術報告原文是這麼寫的：“上述成本僅包括DeepSeek-V3 的正式訓練，不包括與架構、演算法、數據相關的前期研究、消融實驗的成本”。

圖靈獎得主、Meta AI 首席科學家Yann LeCun 也認為市場對於DeepSeek 的成本反應並不合理。不過，他是從推理的角度來看的。他指出，人們常常以為巨額投資主要用於訓練更強大的模型，但實際上大部分錢都花在了讓這些AI 服務能夠穩定地服務數十億用戶身上。而且隨著AI 能力的增強，維持服務運作的成本會變得更高，關鍵是要看使用者是否願意為這些增強的功能付費。