《自然》發文:中國廉價、開放的人工智慧模式DeepSeek讓科學家們興奮不已
一個名為DeepSeek-R1的中國製造的大型語言模型讓科學家們感到興奮,它是OpenAI o1等「推理」模型的一個負擔得起且開放的競爭對手。這些模型在類似人類推理的過程中逐步產生反應。這使得它們比早期的語言模型更擅長解決科學問題,並可能使它們在研究中有用。
1月20日發布的R1的初步測試表明,它在化學、數學和編碼方面的某些任務上的表現與o1相當,這在OpenAI於9月發佈時讓研究人員驚嘆不已。
「這太瘋狂了,完全出乎意料,」人工智慧研究員、英國人工智慧顧問公司DAIR的共同創辦人Elvis Saravia說。 AI在X上寫。
R1脫穎而出還有另一個原因。建構該模型的杭州新創公司DeepSeek將其發佈為“開放權重”,這意味著研究人員可以研究和建立該演算法。根據麻省理工學院的許可證發布,該模型可以自由重複使用,但由於其訓練資料尚未提供,因此不被認為是完全開源的。
德国埃尔兰根马克斯·普朗克光科学研究所人工科学家实验室负责人Mario Krenn说:“DeepSeek的开放性非常显著。”。相比之下,OpenAI在加利福尼亚州旧金山建立的o1和其他模型,包括其最新的o3,“基本上是黑匣子”,他说。
人工智慧幻覺無法阻止,但這些技術可以限制它們的傷害。
DeepSeek尚未公佈培訓R1的全部費用,但它向使用其介面的人收取的費用約為o1運行費用的三十分之一。該公司還創建了R1的迷你「蒸餾」版本,使計算能力有限的研究人員能夠使用該模型。 Krenn說,「使用o1的實驗成本超過300英鎊,而使用R1的實驗成本不到10美元。」。 “這是一個巨大的差異,肯定會在未來的採用中發揮作用。”
R1是中國大型語言模型(LLMs)繁榮的一部分。 DeepSeek從一家對沖基金分拆出來,上個月發布了一款名為V3的聊天機器人,該機器人的表現優於主要競爭對手,儘管其預算很小。專家估計,租用訓練模型所需的硬體大約需要600萬美元,而Meta的Llama 3.1 405B則需要6000萬美元,使用了11倍的計算資源。
圍繞DeepSeek的部分傳言是,儘管美國的出口管制限制了中國公司獲得為人工智慧處理設計的最佳電腦晶片,但DeepSeek還是成功地製造了R1。華盛頓州西雅圖的人工智慧研究員François Chollet表示:「它來自中國的事實表明,高效利用資源比單純的計算規模更重要。」。
华盛顿贝尔维尤的技术专家阿尔文·王·格雷林(Alvin Wang Graylin)在总部位于台湾的沉浸式技术公司HTC工作,他在X上写道,DeepSeek的进展表明,“美国曾经的领先优势已经显著缩小。”
LLMs在數十億個文字樣本上進行訓練,將它們剪切成稱為「標記」的單字部分,並在資料中學習模式。這些關聯使模型能夠預測句子中的後續標記。但LLMs傾向於編造事實,這是一種被稱為「幻覺」的現象,並且經常難以透過推理解決問題。
與o1一樣,R1使用「思維鏈」方法來提高LLM解決更複雜任務的能力,包括有時回溯和評估其方法。 DeepSeek透過使用強化學習「微調」V3來製作R1,強化學習獎勵模型達到正確答案並以概述其「思維」的方式解決問題。
人工智慧競爭對手:長條圖顯示了DeepSeek進行的測試結果,該測試針對OpenAI的o1模型在數學、編碼和推理任務上測試了其大型語言模型的三個版本。 DeepSeek-R1在數學和編碼基準測試中擊敗或與o1相媲美。
很難說基準測試是否捕捉到了模型推理或概括的真正能力,或者只是通過這些測試。但劍橋大學電腦科學家Marco Dos Santos表示,由於R1是開放的,研究人員可以存取它的思想鏈。他說:「這使得模型的推理過程具有更好的可解釋性。」。
科學家已經在測試R1的能力。 Krenn挑戰了這兩個競爭對手的模型,根據它們的有趣程度對3000個研究想法進行排序,並將結果與人工排名進行比較。在這指標上,R1的表現略低於o1。但Krenn說,在量子光學的某些計算中,R1擊敗了o1。 “這相當令人印象深刻。”
來源:資訊與反思
作者:伊莉莎白·吉布尼