中國人工智慧進步速度引美媒關注AI模型將成為新的技術標籤
根據《華爾街日報》報道,中國人工智慧(AI)新創公司發布的大模型表明,他們追趕美國領先AI模型的速度要比業內許多人預期的更快。今年11月,深度求索公司(DeepSeek)發布了其最新大語言模型的預覽版。該公司表示,該大模型在難度較高的數學和程式設計任務上超越了OpenAI在9月推出的預覽版推理模型o1。
最近幾週,其他中國公司也在其大模型性能方面也取得巨大進展。阿里巴巴和騰訊投資的新創公司月之暗面表示,它開發了一個專門研究數學的模型,性能接近o1。阿里表示,該公司的一個實驗研究模型在數學表現上優於o1預覽版。
這些公司尚未發表介紹其模型的論文,因此難以評估這些說法,而目前還沒有一個公認的統一測試方法來衡量AI模型的性能。不過,一些美國專家表示,中國公司在AI大模型上的進展令人印象深刻。
「中國正在以更快的速度趕上。」前OpenAI研究員、現AI企業家安德魯·卡爾(Andrew Carr)說。他表示,深度求索的研究人員嘗試複製OpenAI的推理模型,「在幾個月內就弄清楚了。坦白說,我的許多同事對此感到驚訝」。
月之暗面創辦人楊植麟表示,公司專注於強化學習,也就是模仿人類的試誤過程。這種方法或許能夠在提升模型效能的同時不需要那麼多的算力。

月之暗面創辦人楊植麟
自去年年底以來,AI開發人員越來越多地使用一種名為「混合專家」(MoE,Mixture of Experts)的模型技術。該技術的核心是透過組合多個「專家」模型來協同完成任務。每個「專家」都是一個獨立的神經網絡,它們各自負責處理不同的資料分佈和任務類型。這些「專家」之間透過一種稱為「路由」的機制進行交互,路由機制根據任務的特性和需求,將輸入資料分配給最適合的「專家」進行處理。
騰訊表示,該公司在11月發布的MoE模型可媲美Facebook母公司Meta在7月推出的Llama 3.1模型。審查兩家公司所發表論文的研究人員表示,騰訊訓練模型所使用的算力可能只有Meta的十分之一左右。
美國AI創業公司Anthropic的聯合創始人傑克·克拉克(Jack Clark)在其博客上稱,中國公司的方法就是利用其能夠獲得的硬件,構建極其優秀的軟體和硬件訓練堆棧, “中國製造將成為AI模型的一個標籤,就像電動車、無人機和其他技術一樣。
中國AI新創公司正在自己所擅長的領域深耕。例如,深度求索專注於開源模型,強調數學和程式設計效能。月之暗面的聊天機器人Kimi類似ChatGPT,擅長處理長文本,受到中國消費者的歡迎。
不過,中國AI新創公司目前的估值還遠低於OpenAI等美國公司,因為投資人不確定這些公司能否將技術進展變現。在激烈的競爭中,AI模型供應商之間的價格戰也已經出現。
知情人士稱,智譜AI已推遲了最早於2025年下半年上市的計劃,因為投資銀行家告知該公司不太可能獲得其期望的估值。智譜AI在本月最新一輪融資中的估值約為30億美元。今年11月底,智譜AI展示了其AI智能體,並在7月發布了類似OpenAI Sora的影片生成模型。