AI界拼多多DeepSeek實力如何?幾輪實測後我有了答案
訓練一個AI大模型需要多少錢? OpenAI CEO山姆·奧特曼曾表示,GPT-4的訓練成本約1億美元(約7.3億元),未來訓練大模型的成本將高於10億美元。尚未完成訓練的GPT-5大模型,為時約半年的一輪訓練就消耗了約5億美元,可見AI公司的支出成本有多高。
然而在AI行業卻有一個異類,被廣大網友奉為“AI行業的拼多多”,這家公司就是DeepSeek(深度求索),網傳其大模型訓練成本壓縮到極致,最新推出的DeepSeek-V3大模型訓練成本僅557.6萬美元(約合人民幣4070萬元),大概是GPT-4的二十分之一,總計約消耗了278.8萬個GPU小時,參數為6710億,其中激活參數為370億。
DeepSeek官網的價格表示顯示,快取命中輸入價格僅為0.1元/百萬tokens,緩衝未命中輸入價格為1元/百萬tokens,輸出價格則為2元/百萬tokens,在諸多AI大模型中屬於最低的一檔。 (註明:1token約等於1.5個漢字或3個英文字母)
(圖片來源:DeepSeek截圖)
豆包、通義千問等AI大模型,能力較低的版本差不多也是這個價格,但性能較強的大模型如Doubao-pro-128k,輸入價格5元/百萬tokens,輸出價格為9元/百萬tokens,Kimi的moonshot-v1-128k輸出價格更是高達60元/百萬tokens。 (註明:數據來自AI公司官方)
(圖源:雷科技製作)
DeepSeek-V3超低的訓練成本和最低一檔的輸入、輸出價格,令人不禁疑惑,到底是其他AI公司資源利用率太差,還是DeepSeek技術實力太強,抑或DeepSeek-V3的能力是吹的?
好在,儘管DeepSeek-V3的大模型主開啟來源和API介面使用,但也為使用者準備了可以方便使用的網頁版。只要對其測試一番,對比與主流大語言模型的差距,我們就能獲知DeepSeek的真正實力。
DeepSeek-V3實測,結果令人驚訝
DeepSeek頁面極為簡潔,主框僅有深度思考、連網搜尋、上傳檔案、發送四個按鈕。如果不開啟連網搜尋功能,將無法搜尋網路上相關的資訊,只能當作本地大模型使用,且深度思考和連網搜尋無法同時開啟,但仍需要電腦連網將問題傳送給DeepSeek。
針對DeepSeek-V3,小雷準備了四輪測試,包括通用問答、內容總結、專業數學題、金融知識問答,部分測試還將與豆包、Kimi等大語言模型進行對比,以便於更直觀地觀察DeepSeek -V3的能力。
一、常規問答:簡短整潔、可讀性高。
身為科技編輯,小雷每天都會向AI詢問“今天科技圈有什麼新聞”,讓AI大模型幫助我快速收集新聞,絕大多數大模型也能夠輕鬆勝任。於是,小雷將其作為第一輪測試題目。
DeepSeek為我找了10則新聞,新聞之間用分割線劃分,視覺上更加清晰明了。每一段新聞的結尾,也會提供可一鍵直達的網頁連結。在該計畫的測試中,DeepSeek的亮點在於,新聞的總結簡潔且突出了重點,所收集的內容也不局限於國內平台,部分消息來自海外新聞媒體,點擊鏈接可直達海外的新聞網站。有趣的是,DeepSeek也找到了自己的“黑料”,DeepSeek-V3大模型會稱自己是ChatGPT,山姆·奧特曼發文回應,認為原因是數據污染。
(圖片來源:DeepSeek截圖)
小雷用豆包和Kimi收集新聞時,豆包回覆的內容文字太多,內容不夠簡潔清晰,Kimi則過於精簡,新聞的總結基本上只有一句話。
隨後小雷也讓AI推薦幾首古典音樂,在未連網的狀態下,DeepSeek依然可以準確回答我的問題,但所有內容都變成了英文。而切換到連網模式後,再次提問相同的問題,回答的內容又變成了中文。
本著求真的心態,小雷又進行了幾次測試,發現未聯網狀態下詢問西方古典音樂時,DeepSeek給出的回答是英文,詢問中國相關的音樂內容,如周傑倫的歌曲,DeepSeek就會是中文。 DeepSeek居然是根據回答內容的相關性選擇語言,而不是提問所用的語言,令小雷多少有點詔異。
總而言之,在常規問答專案中,DeepSeek表現出色,無論是連網狀態或非連網狀態都能準確回答小雷提出的問題,表現絲毫不遜色豆包、Kimi等國內第一梯隊的AI大模型。
二、內容總結:結果很精簡,重點有缺失。
在先前大模型橫評中,小雷曾讓豆包、Kimi、文心一言、訊飛星火等多款AI大模型總結小紅書發布的《潮流數碼白皮書》,結果大模型總結出的內容普遍缺失重點,有車遼話來回轉的情況。
與大多數大模型相同,DeepSeek給出的內容遺失了太多重點,尤其是《潮流數位白皮書》給出的部分事例,DeepSeek完全沒有歸納出來。 (著名:淺色部分為思考步驟,深色部分為內文)
(圖片來源:DeepSeek截圖)
AI大模型基本上存在相同的問題,總結內容時容易變成“歸納大綱和標題”,導致大量資訊無法展現出來,用戶僅憑“腦補”也難以還原出原本內容。
就生成的內容而言,DeepSeek的表現與Kimi、文心一言較為接近,略強於訊飛星火,稍遜於豆包。能夠達到這個效果,已經很出乎小雷的意料了。
三、數學題:快速、準確、有過程。
在數學問題中,小雷先後準備了三道數學題,第一題是較為簡單的小學數學題,第二題則是經典的三門問題,DeepSeek全部輕鬆回答正確,因而小雷不再展示AI給的答案,朋友們可以自己思考。
在DeepSeek取得兩連勝後,小雷決定給AI大模型上一上強度,拿出了曾經擊敗過多個AI大模型的第三題:
某班有39名同學參加短跑、跳遠、投擲三項體育比賽,人數分別為23人、18人、21人,其中三項比賽全部參加的有5人,僅參加跳遠的有3人,僅參加投擲的有9人,請問只參加短跑的有多少人? (正確答案:9人)
在先前的測驗中,只有付費版o1-preview計算出了此問題的正確答案,豆包、Kimi、文心3.5、免費版GPT-4o等大模型全部回答錯誤。令小雷沒想到的是,DeepSeek居然給了正確答案。
(圖片來源:DeepSeek截圖)
一時間小雷懷疑,是不是經過這段時間的訓練,所有大模型都能計算出該問題的答案了,於是小雷又測試了幾款大模型,結果豆包和文心3.5依然未能回答正確,分別給了3人和12人的答案,升級了k1視覺思考模型的Kimi和訊飛星火則給了正確答案。
除了能夠正確回答問題,DeepSeek還夠詳細展示了思考步驟,部分問題還會反覆驗證答案,甚至使用其他方式再計算一次,而且解答問題的速度更是獨一檔。
在本輪測驗中,DeepSeek的表現堪稱優秀,所有問題全部答對、解答速度快、有思考步驟,反而是赫赫有名的豆包、文心3.5再次折戟,未能解答出第三題,DeepSeek表現出的實力遠大於它的名氣。
四、金融問題答疑:精準理解,給了適當建議。
所有消費者的大語言模型,至今大多仍免費提供服務,反而主攻是B端市場和主打專業功能的AI大模型,逐漸收費服務。 C端市場用戶眾口難調,許多人不願意付費使用,唯有打造專業使用場景,面向有對應需求的用戶,AI公司方能有機會獲利。因而在第四輪測試中,小雷準備了一道金融知識問題:
當市場利率上升或下降時,債券價格會如何改變?投資人應如何因應利率波動以保護債券投資組合價值?
這一輪測試中,所有AI大模型給出的答案都大同小異,均能準確解讀市利率變化和債券價格的關係,並給予一些投資建議,包括分散投資、縮短久期、投資債券基金等方案。
(圖片來源:DeepSeek截圖)
網路上金融相關的資訊過於繁雜,查詢、挑選、提純資訊的流程也較為麻煩,AI能很好地解決這一問題,幫助我們匯集相關資訊並提取有用的內容。
在金融問題相關測試中,小雷仍未開啟聯網搜尋功能,DeepSeek給出的答案中規中矩,與其他AI大模型拉不開差距,但這已足夠證明DeepSeek的優秀,畢竟它的訓練成本僅557.6萬美元。
總結:能力出乎意料,功能有待豐富
在測試DeepSeek-V3之前,小雷有點看不起這款大模型,OpenAI訓練GPT的成本以「億美元」為單位,一個訓練成本僅557.6萬美元的AI大模型,表現能高到哪去?結果實測結果狠狠給了小雷一巴掌。
幾輪測試下來,除了幾乎所有大模型都存在丟失重點的內容總結環節,其他幾輪測試DeepSeek都拿到了高分,表現絲毫不遜色國內赫赫有名的文心一言、Kimi、豆包等AI大模型。
在數學題題題目中,即便麵對豆包、文心3.5都未能給出正確答案的難題,DeepSeek依然迅速解出答案。訊飛星火和Kimi上次測驗給了錯誤答案,這次成功答對,進步幅度不小。
部分朋友看到這裡可能會覺得,DeepSeek花幾百萬美元就能訓練出這麼優秀的大模型,OpenAI、百度、位元組跳動都是在浪費錢。其實不然,DeepSeek縱然在邏輯推理方面表現出色,但其功能缺乏是最大的問題,無法用於創作圖片、PPT,也不提供智能體可選,功能相對較少。
(圖片來源:豆包產生)
豆包、文心一言、ChatGPT等,則在朝著「萬能大模型」進發,即Any To Any,用戶可以輸入任何模態的內容,並輸出任何模態的內容。針對許多專業領域,豆包、文心一言紛紛推出了對應的智能體,涵蓋生活、學習、創作等各方面,這是DeepSeek遠遠不能及的。
對於以文字生成為主要需求的用戶來說,DeepSeek-V3是一款不錯的AI大模型,但若有更多需求,如寫長篇小說、創作圖片、投資計算,豆包、Kimi等免費服務的AI大模型及其提供的智能體或許更適合。
當然,DeepSeek也確實做到了花小錢辦大事,透過更先進的MoE架構、多技術融合優化、FP8混合精度訓練框架等技術,以及與開源社群合作的方法,在成本較低的情況下,就訓練出文字生成和邏輯推理能力不輸乃至領先主流AI大模型DeepSeek-V3。
訓練成本高昂、競爭愈發激烈已成趨勢,未來幾年國內外將有大量AI公司倒閉,如何開源與節流已成AI公司必須思考的難題,DeepSeek降低成本的方法值得其他AI公司學習。