OpenAI首席研究官:DeepSeek獨立發現了o1的一些核心思路
春節這幾天,國內外AI 圈都被DeepSeek 刷了螢幕。英偉達的股市震盪更是讓全世界看得目瞪口呆。簡單來說,DeepSeek 最近發布的兩個模型—— DeepSeek-V3 和DeepSeek-R1 以很低的成本獲得了比肩OpenAI 同類模型的性能。
這引發了市場對AI 硬體需求的擔憂,投資者擔心未來對英偉達高階晶片的需求可能會減少。

同時,關於DeepSeek 技術創新的討論也非常多。許多人認為,DeepSeek 在硬體受限的條件下被逼走出了一條不同於OpenAI 等狂堆算力的道路,用一系列技術創新來減少模型對算力的需求,同時獲得性能提升。
這些成就得到了包括Sam Altman 在內的AI 領導人物的肯定。


隨後,OpenAI 首席研究長Mark Chen 也發文了。他表示,DeepSeek 確實獨立發現了一些OpenAI o1 也在用的核心理念,不過,這並不代表OpenAI 在算力上的高投入是不合理的。
貼文原文如下:
恭喜Deepseek 開發出了o1 等級的推理模型!他們的研究論文表明,他們獨立發現了一些我們在通往o1 的路上發現的核心概念。
不過,我認為外在的反應有些過度誇大,特別是在成本方面的說法。擁有兩個範式(預訓練和推理)意味著我們可以在兩個維度而不是一個維度(低成本)上優化某項能力。
但這也意味著我們有兩個可以擴展的維度,我們打算在這兩個維度上都積極投入算力!
隨著蒸餾研究日益成熟,我們也發現降低成本和提昇能力的愈發解耦。能夠以更低成本(特別是在更高延遲的情況下)提供服務,並不代表就能產生更好的能力。
我們將繼續提升以更低成本提供模型服務的能力,但我們對我們的研究路線圖保持樂觀,並將繼續專注於執行它。我們很高興能在本季和今年為大家帶來更好的模型!

短短幾段話,Mark Chen 表達了好幾層觀點,我們讓DeepSeek-R1 來解讀一下每段話的言外之意:

總之,和Sam Altman 一樣,Mark Chen 的發言也是在重塑外界對OpenAI 的信心,預告今年會帶來更好的模式。
此外,OpenAI研究科學家Noam Brown也努力弱化外界對OpenAI和DeepSeek的對比,但大家似乎都不買單。



另外,Mark Chen 提到的「外界的反應有些過度誇大,特別是在成本方面的說法」這一點最近也被很多人討論,尤其是「DeepSeek-v3 訓練成本僅為558 萬美元」這一說法。其實,DeepSeek-v3 的技術報告原文是這麼寫的:“上述成本僅包括DeepSeek-V3 的正式訓練,不包括與架構、演算法、數據相關的前期研究、消融實驗的成本”。

圖靈獎得主、Meta AI 首席科學家Yann LeCun 也認為市場對於DeepSeek 的成本反應並不合理。不過,他是從推理的角度來看的。他指出,人們常常以為巨額投資主要用於訓練更強大的模型,但實際上大部分錢都花在了讓這些AI 服務能夠穩定地服務數十億用戶身上。而且隨著AI 能力的增強,維持服務運作的成本會變得更高,關鍵是要看使用者是否願意為這些增強的功能付費。

不少網友對LeCun 的看法表示贊同,認為訓練、推理成本更低的AI 意味著這項技術能更快普及,進而創造更大的市場。


從這個角度來看,DeepSeek 在降低推理成本方面的努力似乎比降低訓練成本的貢獻更值得被關注。


針對可能即將到來的推理需求的激增,OpenAI、Meta 等都在做相應準備,例如旨在為OpenAI 建設強大基礎設施的「星際之門」項目(計劃投資5000 億美元,但資金是否到位一直存疑) 、Meta 新一年600 億美元的AI 投資…
看來,2025 年,AI 市場的競爭依然激烈,DeepSeek 將在新一年走出多遠還有待觀察。