成本僅國外三十分之一,中國大模型已經追上美國了?
「Meta的生成式AI部門正處於恐慌中。這一切始於Deepseek,它使得Llama 4 在基準測試中已經落後。雪上加霜的是:那個不知名的中國公司,僅有550 萬美元的訓練預算。工程師們正在瘋狂地剖析Deepseek,並試圖從中複製一切可能的東西……」一位Meta的工程師在美國科技公司員工社群Blind中寫道。
5天前,中國的AI大模型新創公司DeepSeek(深度求索)正式發表DeepSeek-R1大模型。在發布聲明中,DeepSeek表示, DeepSeek-R1在數學、程式碼、自然語言推理等任務上,效能比肩OpenAI o1 正式版。這消息震動了全球AI圈。
例如,在AIME 2024數學基準測試中,DeepSeek-R1的得分率為79.8%,而OpenAI-o1的得分率為79.2%。在MATH-500基準測試中,DeepSeek-R1的得分率為97.3%,而OpenAI-o1的得分率為96.4%。在程式設計任務中,DeepSeek-R1超過了96.3%的人類選手,而o1是96.6%。
一樣好用,但成本不到三十分之一
這個來自中國的大模型,雖然各項指標往往只是與國外的競品“相當”,最多也只是“略強”,但它的低成本,以及在算力資源上的節省,仍然令國外同行在《自然》雜誌上驚呼:「這太瘋狂了,完全出乎意料」。
DeepSeek 現在尚未公佈訓練R1 的完整成本,但它公佈了API的定價,每百萬輸入tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出tokens 16 元。這個收費大約是OpenAI o1運作成本的三十分之一。
在低價優質的基礎上,DeepSeek-R1也實現了部分開源。官方聲明同步開源了模型權重,允許研究者和開發者在自己的專案中自由使用該模型,或在其基礎上進行進一步的研究和開發。 DeepSeek-R1系列支援商業用途,並允許使用者對模型進行任何形式的修改和衍生創作。同時,DeepSeek-R1對使用者開放思維鏈輸出,這意味著我們能直接看到它以文字形式輸出的「思考」過程。
去年12 月底,DeepSeek發表的DeepSeek-V3已經引起過一次AI圈的震動。它的性能GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓練成本極低。整個訓練在2048塊英偉達H800 GPU集群上完成,僅花費約557.6萬美元,不到其他頂尖模型訓練成本的十分之一。
GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的運算叢集上訓練,而且使用的是效能更優越的H100 GPU。例如,同為頂尖大模型,去年發布的Llama 3.1在訓練過程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的運算資源,成本超過6000萬美元。
隨著大模型的競爭越來越卷,去年OpenAI、Meta、Google以及馬斯克的xAI,各大AI巨頭都開始打造自己的萬卡(GPU)集群,萬卡集群似乎成了訓練頂尖大模型的入場券。但DeepSeek卻用不到十分之一的資源打造出表現相近的大模型,讓習慣了資源競賽的矽谷AI界人士感到意外。
DeepSeek-V3發布後,英偉達高級研究科學家Jim Fan曾在社群媒體上表示,「DeepSeek是今年開源大語言模型領域的最大黑馬」。
矽谷人工智慧數據服務公司Scale AI的創辦人亞歷山大王(Alexander Wang)則在社群媒體上直言不諱地表達了對中國科技界追趕美國的擔憂。他認為DeepSeek-V3的發布,是中國科技界帶給美國的苦澀教訓。「當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”
而今年初DeepSeek-R1發表後,矽谷科技界的評價依然很高。亞歷山大·王認為「我們發現,DeepSeek……是表現最好的,或者大致與美國最好的模型相當,這個領域的競爭越來越激烈,而不是越來越少」。
Jim Fan的評價更上一層樓,甚至討論起了DeepSeek「接班」OpenAI的話題。相較於依靠閉源構築護城河的OpenAI,他在社群網站上表示「我們生活在這樣一個時間線上,一家非美國公司正在維持OpenAI 的原始使命——真正開放、前沿的研究,賦予所有人力量。這看似不合邏輯,但最有趣的結果往往最容易發生」。
在基準測試中的得分未必能完全代表大模型的真實能力,科學家們對R1的能力持較為謹慎的態度。目前,科學家已經開始對R1進行更深入的測試。
德國埃爾蘭根馬克斯普朗克光學研究所人工智慧科學家實驗室負責人馬裡奧克倫,讓OpenAI o1和DeepSeek-R1兩個競爭模型對3,000個研究想法按照其有趣程度進行排序,並將結果與人類的排序進行了比較。在這個評估標準上,R1的表現略遜於o1。然而,她指出R1在某些量子光學計算任務中表現優於o1。
不走尋常路
引起AI圈好奇的,除了DeepSeek-R1性能表現和低成本,還有技術論文中展示的,DeepSeek團隊對於AI訓練方法的新嘗試。
以往的模型在提升推理能力時,通常依賴把監督微調(SFT)這個環節。在監督微調階段,研究人員會使用大量已標註的資料對預先訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的範例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。
DeepSeek-R1訓練過程中的DeepSeek-R1-Zero路線則直接將強化學習(RL)應用於基礎模型。他們的目標是探索大模型在沒有任何監督數據的情況下,透過純強化學習過程進行自我進化,從而獲得推理能力。
團隊建立了兩個最簡單的獎勵規則。一條是準確性獎勵,對了加分錯了減分。另一條是格式要求,模型要把思考過程寫在<think>和</think>標籤之間,類似考試中我們必須把答案寫在答案框裡。不靠“例題”,只讓AI這個“學生”以自己的方式學會做推理。
從基準測驗的成績來看,DeepSeek-R1-Zero 無需任何監督微調資料即可獲得強大的推理能力。在AIME 2024基準測試裡,使用多數投票機制時的DeepSeek-R1-Zero達到86.7%準確率,高過OpenAI o1。
在訓練OpenAI o1這個等級的推理模型這個任務上,DeepSeek-R1是第一個直接強化學習證明此方法有效的模型。
艾倫人工智慧研究所(Allen Institute for AI)的研究科學家內森·蘭伯特(Nathan Lambert)在社交媒體上表示,R1的論文“是推理模型研究不確定性中的一個重要轉折點”,因為“到目前為止,推理模型一直是工業研究的一個重要領域,但缺乏一篇具有開創性的論文[5]。”
中山大學積體電路學院助理教授王美琪解釋稱,直接強化學習方法與DeepSeek 團隊在多版模型迭代中的一系列工程優化技術(如簡化獎懲模型設計等)相結合,有效降低了大模型的訓練成本。直接強化學習避免了大量人工標註資料的工作,而獎懲模型的簡化設計等則減少了對運算資源的需求。
DeepSeek-R1 的成果顯示,大規模運用直接強化學習,而非依賴大模型經典訓練範式(如採用預設思維鏈模版和監督微調)是可行的。這為大模型訓練提供了更有效率的思路,有望啟發更多研究人員和工程師沿著這個方向進行複現與探索。 DeepSeek 也開源模型並提供了詳細技術報告,也有助於他人快速驗證和拓展該方法。
「從核心原理上來講,DeepSeek的大部分訓練技巧在AI發展過程中都有跡可循,但其所揭示的直接強化學習的巨大潛力,以及訓練過程中自反思和探索行為的湧現,對大模型高效訓練乃至人類學習模式的探索都有很大啟發意義。
這個大模型能為中國的AI產業帶來什麼?
對於DeepSeek,《自然》雜誌指出:儘管美國出口管制限制中國公司獲得為人工智慧處理而設計的最佳電腦晶片,但它還是成功製造了(DeepSeek的) R1。
在矽谷,人們將這個節省算力的中國大模型稱作“來自東方的神秘力量”,從《紐約時報》到《連線》《福布斯》幾乎所有的媒體都在說:美國對先進半導體的出口管制旨在減緩中國人工智慧的發展,但這可能無意中刺激了創新。 」
那麼,這樣一個節省算力的大模型會成為中國針對AI晶片禁運的解法嗎?
一位人工智慧領域的專家告訴《知識分子》:最終,“還是需要把晶片搞上去。”
算力困境仍在,然而,這樣一個極度節省算力的大模型的出現仍然給中國的大模型們帶來了新的希望——除了算力,我們可以依靠的還有優化。正如《自然》雜誌上引用的華盛頓西雅圖的人工智慧研究員François Chollet 的評價:“這一事實表明,高效利用資源比單純的計算規模更重要。”
《福布斯》則指出,它讓世界認識到,“中國並未退出這場(人工智慧的)競賽。”
這個來自中國的大模型讓人們看到了從架構、演算法上進行最佳化的潛力,幾乎是以一己之力扭轉了全球大模型領域對算力的瘋狂追逐,為無數的小公司帶來了新的機會。
《自然》雜誌說,DeepSeek的V3訓練時只花了不到600萬美元,而Meta訓練其最新人工智慧模型Llama 3.1 405B時所耗資金超過6000萬,《紐約時報》說:「有600萬美元資金的公司在數量上遠遠多於有1億美元或10億美元資金的公司」。
效率之外,DeepSeek另一個常被誇讚的亮點是開源。 Reddit上,人們讚歎DeepSeek“開源、而且可以本地運行”,“我一定要下載一個到我的電腦上”。
開源,這意味著這個模型的研發者將不僅只與自己的同事合作,他們“其實在與世界各地最優秀的同行合作”,《紐約時報》說,“如果最好的開源技術來自中國,美國開發人員將在這些技術的基礎上建立他們的系統。
當然,引領整個生態,那是遙遠的未來,開源,更為直接的,肉眼可見的一個影響是:“一個開源又好用的AI,它會迅速佔領學術界的”,前述人工智能相關專家告訴《知識分子》。