杭州大模型DeepSeek訓練只花4000萬元美國AI大佬全炸出來了
延續便宜大碗的特點,DeepSeek V3發布即開源。還用53頁論文,分享訓練細節。更重要的是,大家第一時間在論文中發現了關鍵細節:訓練過程,便宜又省錢! DeepSeek 用十分之一的算力,做出了和GPT-4o 及Claude-3.5-Sonnet 性能相當的模型!
DeepSeek V3整個訓練過程只花了不到280萬個GPU小時。
比較參考:Llama 3 405B的訓練時間是3080萬GPU小時。
訓練671B的DeepSeek V3的成本是557.6萬美元(約4,070萬元)。
而同類模型,大概需要1.5萬塊H100,DeepSeek用了2048 塊H800就做出來了。
海外對deepseek的讚嘆與不解,遠高於國內。
OpenAI創始成員AK對此讚道:
DeepSeek V3讓在有限算力預算上進行模型預訓練這件事變得容易。
DeepSeek V3看起來比Llama 3 405B更強,訓練消耗的算力卻只有後者的1/11。
Meta科學家田淵棟,說DeepSeek V3的訓練,看起來是「黑科技」:這是非常偉大的工作。
Menlo Venture的投資人也感慨:「 53 頁的技術論文是黃金」 (53-page technical paper is GOLD)。
英偉達資深研究科學家Jim Fan,轉發OpenAI創始成員AK的推文表示:資源限制是一件美好的事情。在殘酷的人工智慧競爭環境中,生存本能是突破的主要動力。
「我關注DeepSeek 很久了。去年他們推出了最好的開源模型之一,卓越的OSS模型給商業前沿LLM 公司帶來了巨大壓力,迫使它們加快步伐。”
前阿里巴巴副總裁賈揚清認為:
DeepSeek 的成功是簡單的智慧和實用主義在起作用,在計算和人力有限的情況下,透過智慧研究產生最佳結果。
論文結尾,再次強調了「以開源精神和長期主義追求普惠AGI」。
當然「小力出奇蹟」也是相對的,因為公司本身家底殷實。
幻方量化是國內唯一公開宣稱有萬張英偉達A100顯示卡的企業,其算力儲備量就算是在一眾互聯網公司科技公司裡也豪不遜色。
如此厲害的大模型,不是網路科技巨頭研發的,國內最牛的AI巨頭(之一),竟然是炒股的?
金融領域的頭部量化:幻方量化。
梁文鋒是幻方量化的實際控制人,他在DeepSeek最終受益的股份比例超80%。
他本碩就讀於浙江大學,攻讀人工智慧,閱讀時就篤定「AI定會改變世界」。
畢業後,梁文鋒沒有走程式設計師的既定路線,而是下場做量化投資,成立幻方量化。幻方量化成立僅6年管理規模即曾達千億,稱為「量化四大天王」之一。
幻方量化也是迄今為止,業界唯一規模曾邁過千億大關的量化私募。
DeepSeek-V3 為自研MoE 模型,671B 參數,活化37B,在14.8T token 上進行了預訓練。
DeepSeek-V3 多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等其他開源模型,在效能上和世界頂尖模型GPT-4o 以及Claude-3.5-Sonnet相差無幾。
先前DeepSeek一直被冠以「AI界拼多多」。
它開啟了中國大模型價格戰。
2024年5月,DeepSeek發表的一款名為DeepSeek V2的開源模型,提供了史無前例的性價比:
推理成本降到每百萬token僅1塊錢,在當時約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
隨後,位元組、騰訊、百度、阿里、kimi等AI公司跟著降價。
現在,登入deepseek官網,即可與最新版V3 模型對話。目前版本的DeepSeek-V3 暫不支援多模態輸入輸出。
更新上線的同時,DeepSeek 調整了API 服務價格-模型API 服務定價調整為每百萬輸入tokens 0.5 元(快取命中)/ 2 元(快取未命中),每百萬輸出tokens 8 元。
官方也為全新模型設定長達45 天的優惠價格體驗期:
即日起至2025 年2 月8 日,DeepSeek-V3 的API 服務價格仍為每百萬輸入tokens 0.1 元(快取命中)/ 1 元(快取未命中),每百萬輸出tokens 2 元,已經註冊的老用戶和在此期間內註冊的新用戶均可享有以上優惠價格。
國內不少公司習慣跟隨海外科技公司,參考技術做應用變現。
即使是網路大廠在創新方面也較為謹慎,更重視應用層面。
DeepSeek逆向而行,選擇了一條更具挑戰性的道路。它不滿足於僅僅成為跟隨者,而是從架構創新入手,提出了突破性的MLA架構,在全球AI大模型領域留下了獨特的中國印記。
正如DeepSeek創始人梁文峰所說:“中國也要逐步成為貢獻者,而不是一直搭便車。”