Nature雜誌:DeepSeek讓科學家興奮不已
Nature自然雜誌發表文章稱,中國開發的大型語言模型DeepSeek-R1令科學家們興奮不已,它被認為是OpenAI 的o1 等推理模型的經濟實惠且開放的競爭對手。這些模型一步一步地產生反應,其過程類似於人類的推理。這使得它們比早期的語言模型更善於解決科學問題,也意味著它們可能在研究中有用。
1 月20 日發布的R1 的初步測試表明,它在化學、數學和編碼的某些任務上的表現與o1 相當——後者在9 月由OpenAI 發佈時讓研究人員驚嘆不已。
「這太瘋狂了,完全出乎意料。」人工智慧研究員、英國人工智慧諮詢公司DAIR.AI 聯合創始人 Elvis Saravia 在X 上寫道。
R1 脫穎而出還有另一個原因。建立該模型的杭州新創公司DeepSeek 已將其作為開放模型發布,這意味著研究人員可以研究和建立演算法。該模型根據麻省理工學院的許可證發布,可以自由重複使用,但不被視為完全開源,因為其訓練資料尚未公開。
德國埃爾朗根馬克斯普朗克光科學研究所人工智慧科學家實驗室負責人馬裡奧克倫(Mario Krenn) 表示:DeepSeek 的開放性非常了不起。
相較之下,加州舊金山OpenAI 建立的o1 和其他模型(包括其最新成果o3)本質上都是黑盒子,他說。
DeepSeek 尚未公佈訓練R1 的全部成本,但其介面收費僅為o1 運行成本的三十分之一。該公司還創建了R1 的迷你精簡版本,以允許計算能力有限的研究人員使用該模型。
「使用o1 進行的實驗成本超過300 英鎊[370 美元],而使用R1 的成本不到10 美元。」Krenn 說。 “這是一個巨大的差異,肯定會對其未來的採用產生影響。”
挑戰模型
R1 是中文大型語言模型(LLM) 熱潮的一部分。 DeepSeek 從一家對沖基金中分拆出來,上個月發布了一款名為V3 的聊天機器人,一舉成名。儘管預算極低,但這款機器人的表現卻超越了主要競爭對手。專家估計,租用訓練該模型所需的硬體成本約為600 萬美元,而Meta 的Llama 3.1 405B 則高達6000 萬美元,使用的計算資源是V3 的11 倍。
DeepSeek 的部分熱門話題是,儘管美國出口管制限制中國公司獲得為人工智慧處理而設計的最佳電腦晶片,但它還是成功製造了R1。華盛頓西雅圖的人工智慧研究員François Chollet 表示:R1 來自中國,這一事實表明,高效利用資源比單純的計算規模更重要。
DeepSeek 的進展表明美國曾經的領先優勢已經大幅縮小,華盛頓州貝爾維尤的技術專家Alvin Wang Graylin 在X 上寫道,他在HTC 工作。 “中美兩國需要採取合作的方式來打造先進的人工智慧,而不是繼續目前這種沒有勝算的軍備競賽方式。”
思路
LLM 訓練數十億個文字樣本,將它們剪切成單字部分(稱為標記),並學習資料中的模式。這些關聯允許模型預測句子中的後續標記。但LLM 容易捏造事實,這種現象稱為幻覺,並且經常難以推理問題。
與o1 一樣,R1 使用思路鏈方法來提高LLM 解決更複雜任務的能力,包括有時回溯和評估其方法。 DeepSeek 透過使用強化學習對V3 進行微調來製作R1,強化學習會獎勵模型得出正確答案並以概述其思維的方式解決問題。

英國愛丁堡大學人工智慧研究員Wenda Li 表示,運算能力有限促使該公司在演算法上進行創新。在強化學習過程中,團隊估算了模型在每個階段的進度,而不是使用單獨的網路來評估。
英國劍橋大學電腦科學家Mateja Jamnik 表示,這有助於降低培訓和運作成本。研究人員還使用了混合專家架構,該架構允許模型僅激活與每項任務相關的部分。
在基準測試中, DeepSeek-R1 在加州大學柏克萊分校研究人員編寫的數學問題MATH-500 中取得了97.3% 的成績,並在一項名為Codeforces 的程式設計競賽中擊敗了96.3% 的人類參與者。這些能力與o1 不相上下;o3 未被納入比較範圍(請參閱「AI 競爭對手」)。
很難判斷基準測試是否反映了模型真正的推理或概括能力,還是僅僅反映了其通過此類測試的能力。但劍橋大學電腦科學家Marco Dos Santos 表示,由於R1 是開放的,研究人員可以存取其思路。 「這使得模型的推理過程具有更好的可解釋性。」他說。
科學家已經開始測試R1 的能力。克倫要求兩個競爭模型對3,000 個研究想法進行有趣程度排序,並將結果與人工排名進行比較。根據此衡量標準,R1 的表現略遜於o1。但克倫表示,R1 在量子光學的某些計算上勝過o1。 “這相當令人印象深刻。”