DeepSeek超越OpenAI的秘密武器:創新
目前,全球AI社群正在瘋狂熱議一種新的開源推理模式DeepSeek R1。該模型由中國AI新創公司DeepSeek開發,該公司聲稱R1在多個關鍵基準上與OpenAI的ChatGPT o1相媲美,甚至還有所超越,但成本只是後者的一小部分(有報道稱約為3 %至5%)。

美國埃默里大學(Emory University)資訊系統助理教授Hancheng Cao表示:「這可能是一個真正的均衡突破,對資源有限的研究人員和開發人員來說是件好事,尤其是來自南半球的研究人員。 」
考慮到硬體等資源方面的限制,DeepSeek的成功更加引人注目。 DeepSeek等新創公司正以優先考慮效率、資源共享和協作的方式進行創新。
DeepSeek前員工、現任美國西北大學(Northwestern University)電腦科學博士生Zihan Wang表示,為了創建R1,DeepSeek不得不重新設計其訓練過程,以減輕其GPU的壓力。
DeepSeek R1因其處理複雜推理任務的能力而受到研究人員的稱讚,特別是在數學和編碼方面。該模型採用了一種類似ChatGPT o1的「思維鏈」方法,透過逐步處理查詢來解決問題。
微软AI前沿研究实验室的首席研究员Dimitris Papailiopoulos表示,R1最让他惊讶的是它的工程简单性。他说:“DeepSeek旨在获得准确的答案,而不是详细说明每个逻辑步骤,从而在保持高水平效率的同时显著减少计算时间。”
DeepSeek還發布了六個較小版本的R1,這些版本足夠小,可以在筆記型電腦上本地運行。該公司稱,其中一個甚至在某些基準測試中表現優於OpenAI的o1-mini。
儘管R1備受關注,但DeepSeek仍然相對不為人知。該公司總部位於中國杭州,由浙江大學資訊與電子工程專業校友梁文峰於2023年7月創立。該公司由梁文峰在2015年創立的對沖基金幻方(High-Flyer Quant)孵化。與OpenAI的薩姆·奧特曼(Sam Altman)一樣,梁文峰的目標是建立通用人工智慧(AGI),即一種可以在一系列任務上與人類匹敵甚至擊敗人類的AI。
訓練大型語言模型(LLM)需要一個訓練有素的研究人員團隊和強大的運算能力。資深企業家、Google中國前負責人李開復近日接受媒體採訪時表示,只有「第一線玩家」通常會參與建構ChatGPT等基礎模型,因為它需要大量資源。
據報道,為了訓練其模型,DeepSeek購買了10,000多塊英偉達GPU,隨後又擴大到50,000塊。與OpenAI、Google和Anthropic等領先的AI實驗室相比,這明顯相形見絀,因為這些實驗室每個都有超過50萬塊GPU。
儘管如此,DeepSeek前員工Zihan Wang表示,他在DeepSeek工作時可以獲得豐富的計算資源,並可以自由地進行實驗,這對應屆畢業生來說是一種少有的奢侈。
梁文峰稱,除了硬體方面的限制,公司面臨的另一個挑戰是,他們的AI工程技術往往效率較低。他說:「我們(大多數中國公司)必須消耗兩倍的運算能力才能達到相同的結果。再加上數據效率差距,這可能意味著需要高達四倍的運算力。我們的目標是不斷縮小這些差距。
但DeepSeek找到了在不显著牺牲准确性的情况下,减少内存使用和加速计算的方法。Zihan Wang说:“团队喜欢把硬件挑战变成创新的机会。”
梁文峰本人仍深度參與DeepSeek的研究過程,與他的團隊一起進行實驗。王說:“整個團隊都有一種協作文化,並致力於核心研究。”
除了優先考慮效率,DeepSeek也越來越接受開源原則。阿里雲已經發布了100多個新的開源AI模型,支援29種語言,迎合了包括編碼和數學在內的各種應用。同樣,像Minimax和01.AI(零一萬物)這樣的新創公司也將他們的模型開源。
根據中國資訊通訊研究院(CAICT)去年發布的白皮書,全球AI大型語言模式的數量已達1,328個,其中36%來自中國。這使中國成為AI的第二大貢獻者。
塔夫茨大學(Tufts University)技術政策助理教授Thomas Qitong Cao表示:“這一代年輕的中國研究人員強烈認同開源文化,因為他們從中受益匪淺。”
卡內基國際和平基金會(Carnegie Endowment for International Peace)的AI研究員馬特·希恩(Matt Sheehan)稱:「中國公司必須利用有限的計算資源提高效率。將來,我們可能會看到很多與缺乏計算相關的整合。
事實上,這種情況可能已經開始發生了。兩週前,阿里雲宣布與李開復創立的北京新創公司「零一萬物」合作,合併研究團隊,建立「工業大型模型實驗室」。
Thomas Qitong Cao說:“AI行業出現某種分工是節能和自然的。AI的快速發展要求中國企業保持敏捷才能生存。”