新版DeepSeek V3悄悄發表外媒：很強但少了”人味”

2025-03-25 Comments 0 Comment

中國人工智慧新創公司DeepSeek悄悄發布了一款新的大語言模型，在人工智慧產業引發震動。這不僅因為其強大的能力，還因為其獨特的發布方式。這個大小為641GB的車型名為DeepSeek-V3-0324，於週一悄悄出現在人工智慧資源庫Hugging Face上，幾乎沒有任何官方公告，延續了該公司低調卻影響深遠的發布風格。

此次發布尤其值得關注的是，該模型採用MIT許可（允許免費商用），並且有報告稱它可以直接在消費者級「硬體」上運行，尤其是配備M3 Ultra晶片的蘋果Mac Studio。

人工智慧研究員Awni Hannun在社群媒體上寫道：「4位元量化的新版DeepSeek-V3-0324，在512GB M3 Ultra的機器上透過mlx-lm實現了每秒20個token的處理速度！」雖然售價為9499美元的Mac Studio可能超出了「消費者硬體」的定義，但就可能如此龐大的主要硬體模型，與人工智慧與全球數據之間的定義為最先進的數據模型，但在這樣一個主要的整體上運行了人工智能可能與人工智慧相驅動

DeepSeek隱密發布策略打破AI市場預期

這個擁有6850億參數的模型發佈時沒有附帶技術白皮書、部落格文章或行銷推廣，只有一個空白的README文件和模型權重。這種做法與西方人工智慧公司通常精心策劃的產品發布形成鮮明對比，後者往往在發布前數月便開始進行炒作。

早期測試者報告稱，相較於前一版本，DeepSeek-V3-0324在各項指標上有了顯著提升。人工智慧研究員Xeophon在社群媒體上發文高調宣稱：「我在內部基準測試平台上測試了新版DeepSeek V3，在所有測試中，它在各項指標上都有巨大的躍升。它現在是最好的非推理模型，把Sonnet 3.5拉下王座。」

如果這一說法得到更廣泛的驗證，DeepSeek的新模型將在性能排行榜上壓制Anthropic的Claude Sonnet 3.5，後者是業界公認頂尖的商業人工智慧系統之一。而且與需要訂閱的Sonnet不同，DeepSeek-V3-0324的權重檔案供任何人免費下載使用。

DeepSeek V3-0324的突破性架構如何實現無與倫比的效率

DeepSeek-V3-0324採用了混合專家（MoE）架構，從根本上重新構想了大語言模型的運作方式。傳統模型會在每項任務中啟動全部參數，而DeepSeek的方法是在特定任務中只啟動約370億個參數，儘管它擁有6850億個參數。

這種選擇性活化代表了模型效率的典範轉移。透過僅啟動與每個特定任務最相關的「專家」參數，DeepSeek能夠在大幅減少運算需求的同時，提供與更大、完全啟動的模型相當的效能。

該模型還融入了兩項突破性技術：多頭潛在註意力（MLA）和多token預測（MTP）。 MLA增強了模型在處理長文本時保持上下文的能力，而MTP則可以每個步驟產生多個token，而非傳統的逐標記生成方式。兩者結合使得輸出速度提高了近80%。

開發工具創造者西蒙·威利森（Simon Willison）在部落格中指出，4位元量化版本的DeepSeek-V3將儲存佔用減少到352GB，這使得在像Mac Studio（配備M3 Ultra晶片）這樣的高階消費者硬體上運行成為可能。

這代表了人工智慧技術部署方式的潛在重大轉變。傳統人工智慧基礎設施通常依賴多塊英偉達GPU，消耗數千瓦的電力，而Mac Studio在推理過程中僅消耗不到200瓦的電力。這一效率差距表明，人工智慧產業可能需要重新審視頂尖模型效能所需基礎設施的假設。

中國的開源AI革命挑戰矽谷的「封閉花園」模式

DeepSeek的發布策略體現了中西方公司在人工智慧商業理念上的根本分歧。像OpenAI和Anthropic這樣的美國領導公司將他們的模型封閉在付費牆後，而中國人工智慧公司則越來越多地採納寬鬆的開源許可。

這種做法正在迅速改變中國的人工智慧生態系統。尖端模型的開源產生了乘數效應，使得新創公司、研究人員和開發人員能夠在沒有巨額資本支出的情況下，基於複雜的人工智慧技術進行建構。這加速了中國人工智慧能力的提升，令西方觀察者感到震驚。

這項策略背後的商業邏輯反映了中國市場的現實。在眾多資金雄厚的競爭對手存在的情況下，當競爭者免費提供類似能力時，保持專有模式變得越來越困難。開源透過生態系統領導地位、API服務和基於免費可用基礎模型建立的企業解決方案創造了替代的價值路徑。

即便是中國的科技巨頭也體認到這一轉變。百度宣布計劃在6月前將其文心一言4.5系列模型開源，而阿里巴巴和騰訊也發布了具有專業能力的開源人工智慧模型。這項舉措與西方公司依賴API的策略形成了鮮明對比。

開源策略也解決了中國人工智慧公司面臨的獨特挑戰。在取得尖端英偉達晶片受限的情況下，中國公司更加強調效率和最佳化，以在有限的運算資源下實現競爭性效能。這種由需求驅動的創新現在已成為潛在的競爭優勢。

DeepSeek V3-0324：AI推理革新的基礎

DeepSeek-V3-0324的發佈時機和特點強烈表明，DeepSeek預計將在未來兩個月內發布的改進型推理專用模型DeepSeek-R2。這符合DeepSeek的慣常模式，即基礎模型發布數週後推出專用推理模型。

Reddit用戶mxforest指出：“這與他們在聖誕節前後發布V3，幾週後推出R1的模式一致。傳聞R2將在4月發布，所以這可能就是它。”

推理模式的開源再怎麼強調都不為過。目前，像OpenAI的o1和DeepSeek的R1這樣的推理模型代表了人工智慧能力的最前沿，在數學、程式設計等領域展現了前所未有的問題解決能力。將這項技術免費開放，將使目前只有擁有雄厚資金支持的公司才能使用的人工智慧系統普及化。

潛在的R2模型發布之際，關於推理模型計算需求的重要發現正在浮現。英偉達執行長黃仁勳最近指出，DeepSeek的R1模型“消耗的計算量是非推理人工智慧系統的100倍”，這與先前業內對效率的假設相矛盾。這揭示了DeepSeek模型背後所取得的非凡成就，它們在資源限制更大的情況下依然能夠提供競爭力的表現。

如果DeepSeek-R2繼續沿著R1設定的軌跡發展，它可能會直接挑戰GPT-5，即OpenAI的下一代旗艦模型，後者預計將在不久後發布。 OpenAI封閉、資金密集的方法與DeepSeek開放、資源高效的策略之間，代表了人工智慧領域兩種相互競爭的未來願景。

如何體驗DeepSeek V3-0324：開發者和使用者的完整指南

對於急於體驗DeepSeek-V3-0324的人，根據技術需求和資源的不同，可以選擇多種途徑。完整的模型權重已在Hugging Face上發布，641GB的大小需要充足的儲存空間和運算資源。

對於大多數用戶而言，基於雲端的選項提供了最容易接入的入口。 OpenRouter提供免費API存取該模型，並且配有用戶友好的聊天介面。只需選擇DeepSeek V3 0324作為模型即可開始體驗。

DeepSeek自己的聊天介面chat.deepseek.com也很可能已經更新為新版本，儘管公司尚未明確確認。早期用戶回饋稱，新的版本在該平台上可用，且效能較先前版本有所提升。

希望將模型整合到應用程式中的開發者，也可以透過各種推理提供者存取它。 Hyperbolic Labs宣布成為「在Hugging Face平台上首家提供該模型服務的推理提供者」提供該模型，而OpenRouter則提供與OpenAI SDK相容的API存取。

DeepSeek的新模型更注重技術精確性而非對話親和力

早期用戶報告稱，DeepSeek模型的交流風格發生了明顯變化。儘管先前的模型因其對話式、擬人化的語氣備受好評，但DeepSeek V3-0324呈現出更正式、技術導向的風格。

Reddit用戶nother_level問道：“是只有我覺得這個版本不那麼像人類了嗎？對我來說，DeepSeek V3與其他模型不同的地方在於它更像人類。它的語氣、措辭都不像其他大語言模型那樣機械感，但現在這個版本感覺像其他大語言模型一樣機械得要命。”

另一位用戶AppearanceHeavy6724補充道：“沒錯，它肯定失去了那種超然的魅力，感覺聰明反被聰明誤。”

這種明顯的風格變化似乎是DeepSeek工程師的有意設計。轉向更精準、分析式的交流風格，顯示該公司正將模型重新定位至專業和技術應用，而非休閒對話的策略。這與人工智慧產業的廣泛趨勢一致，開發者越來越認識到，不同的使用情境需要不同的互動風格。

對開發專業應用的開發者而言，這種更精準的交流風格反而成為優勢，能為工作流程提供更清晰一致的輸出；但會削弱模型在需親和力的消費端應用上的吸引力。

DeepSeek的開源策略如何重塑全球AI版圖

DeepSeek的人工智慧技術開發和分發方法不僅是一項技術成就，也體現了關於先進技術應如何在社會中傳播的根本不同願景。透過提供開放許可的尖端人工智慧模型，DeepSeek推動了一個傳統閉源模型無法比擬的指數級創新。這項戰略正在快速縮小中國和美國在人工智慧領域的差距。幾個月前，大多數分析師都認為中國落後美國一到兩年，而如今這一差距已縮小至3至6個月，部分領域接近持平甚至中國領先。

這種開源部署理念與安卓對行動生態系統的影響相當相似。透過免費提供安卓系統，谷歌創建了一個平台，最終實現了全球市場的主導地位。同樣，開源人工智慧模型也有可能憑藉廣泛普及和開發者集體創新，在競爭中超越閉源系統。

這一影響超越了市場競爭，直指技術取得的根本問題。西方AI巨頭因將先進能力集中在資源充足的公司與個人手中而備受批評，而DeepSeek的開放策略讓能力廣泛分佈，可能加速全球AI應用。

隨著DeepSeek-V3-0324進入全球研究實驗室和開發者工作站，競爭已不再只是關於建造最強大的人工智慧，而是關於讓更多人能夠利用人工智慧進行創造。在這場競賽中，DeepSeek的低調發布已充分預示了人工智慧的未來。最自由分享科技的公司，或將最終主導AI重塑世界的進程。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

WONGCW 網誌

記錄生活經驗與點滴

新版DeepSeek V3悄悄發表外媒：很強但少了”人味”

2025-03-25 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆