滾燙Deepseek一夜刀掉英偉達4兆除夕開源多模態新模型
DeepSeek大爆出圈,現在連夜發布新模型-多模態Janus-Pro-7B,發布即開源。在GenEval和DPG-Bench基準測試中擊敗了DALL-E 3和Stable Diffusion。

想必大家這幾天完全被DeepSeek刷屏了吧。
它長時間霸榜熱搜第一,甚至AI第一股英偉達直接被幹崩了——最大跌幅近17%,一夜蒸發5890億美元(約合人民幣4.24萬億元),創下美股單日跌幅最大紀錄。
而Deepseek神話還在繼續,春節假期中全國人民都開始體驗了,Deepseek伺服器還一度卡到宕機。



值得一提,同一夜,阿里旗下大模型通義千問Qwen也更新了自己的開源家族:
視覺語言模型Qwen2.5-VL,包括3B、7B 和72B三種尺寸。

真~今夜杭州都不睡,起舞競速大模型。
DeepSeek連夜發布新模型
先來看看DeepSeek新模型,這其實是先前Janus、JanusFlow的進階版本和延續。

一作為博士畢業於北大的陳小康。
具體來說,它是基於DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base所建構的,是一個統一理解和產生的多模態大模型。整個模型採用自迴歸框架。
它透過將視覺編碼解耦為單獨的路徑來解決先前方法的局限性,同時仍然使用單一、統一的轉換器架構進行處理。
這種解耦不僅緩解了視覺編碼器在理解和生成中的角色衝突,還增強了框架的靈活性。

對於多模態理解,它使用SigLIP-L作為視覺編碼器,支援384 x 384 影像輸入。對於影像生成,Janus-Pro使用LIamaGen中的VQ標記器,將影像轉換為離散的ID,下取樣率為16。
ID序列被扁平化為一維後,他們使用生成適配器將每個ID對應的程式碼庫嵌入映射到LLM 的輸入空間中。然後,將這些特徵序列連接起來,形成多模態特徵序列,隨後將其輸入LLM 進行處理。
除了LLM 內建的預測頭,在視覺生成任務中也使用隨機初始化的預測頭進行影像預測。
相較於前一個版本Janus的三個訓練階段,團隊發現這個訓練策略並不理想,會大幅降低運算效率。

對此,他們做了兩處大的修改。
第一階段Stage I的長時間訓練:增加了第一階段的訓練步驟,以便在ImageNet 資料集上進行充分的訓練。研究結果表明,即使在LLM 參數固定的情況下,模型也能有效地模擬像素依賴性,並根據類別名稱產生合理的圖像。
第二階段Stage II:的集中訓練:在第二階段,放棄了ImageNet 數據,直接利用常規文字到圖像數據來訓練模型,以產生基於密集描述的圖像。
此外在第三階段的監督微調過程中,也調整了不同類型資料集的資料比例,將多模態資料、純文字資料和文字影像資料的比例從7:3:10 調整為5:1:4 。
透過稍微降低文字到圖像資料的比例發現,這項調整可以讓在保持強大的視覺生成能力的同時,提高多模態理解表現。
最終結果顯示,實現了與現有視覺理解產生SOTA模型持平的水準。


△GenEval基準

DPG-Bench基準
與上一個版本Janus相比,它可以為簡短提示提供更穩定的輸出,具有更好的視覺品質、更豐富的細節以及生成簡單文字的能力。

更多多模態理解和視覺生成能力的定性結果。

DeepSeek征服全球用戶
想必這兩天一定是DeepSeek刷屏了——
是科技圈非科技圈、七大姑八大姨都擱那討論的程度。
像是同為杭州六小龍的遊戲科學,其創辦人CEO、《黑神話:悟空》製作人也專門發微博支援:頂尖科技成果,六大突破。

還有DeepSeek自稱MOSS,也被流浪地球導演郭帆注意到了。
好好好,DeepSeek是不是直接預訂下一部主角了(Doge)。

而這故事的一開始,正是前幾天剛開源的推理模型R1,以其低廉的成本、免費的使用以及完全不輸o1的性能,征服了全球用戶,直接引發行業地震。
只花費560萬美元訓練的R1,相當於Meta GenAI團隊任一高階主管的薪資,在許多AI基準測試中已經達到甚至超越OpenAI o1模型。
而且DeepSeek真的免費,而ChatGPT雖然在免費榜上,但如果想解鎖它的完全體,還是要掏200美元。
於是乎,大家開始紛紛轉向DeepSeek來“構建一切”,也就迅速登頂美區蘋果應用商店免費App排行第一,超越了ChatGPT和Meta的Threads等熱門應用。

用戶量的激增也導致DeepSeek伺服器多次宕機,官方不得不緊急維護。
而聚焦在業界內,大家對於DeepSeek的關注,在於如何在有限的資源成本情況下,實現與OpenAI持平的水準。
相較於國外動輒百億千億美元成本、幾十百萬張卡這種粗放的模式,用DeepSeek很多技術細節都放在如何降低成本開銷上。
比如蒸餾。 R1總共開源了6個在R1資料上的蒸餾小模型,蒸餾版Qwen-1.5B都能在部分任務上超過GPT-4o。

還有就是純強化學習,拋棄SFT環節,透過數千次的強化學習來提升模型的推理能力,然後在AIME 2024上的得分與OpenAI-o1-0912的表現相當。

也因為這樣,讓人不免想到OpenAI前幾天砸5000億美元建資料中心以及英偉達長時間以來在高階GPU的壟斷地位。
拿5000億美元建資料中心,是必要的嗎?
大規模的AI算力投資,是必要的嗎?
這樣的討論,在資本市場得到了回應。美股開盤後,英偉達股價暴跌17%,創下自2020年3月以來最大跌幅,市值蒸發近6000億美元,老黃自己的個人財富一夜之間也縮水了超130億美元。
博通、AMD等晶片巨頭也紛紛大幅下跌。
對此,英偉達公開回應稱,DeepSeek是一項卓越的人工智慧進展,也是測試時擴展的絕佳範例。 DeepSeek的研究展示瞭如何運用該技術,借助廣泛可用的模型以及完全符合出口管制規定的算力,創建新模型。推理過程需要大量英偉達GPU和高效能網路。如今我們有三個擴展定律:持續適用的預訓練和後訓練定律,以及新的測試時擴展定律。
同樣被動搖的還有Meta、OpenAI。
Meta內部甚至成立了專門的研究小組,試圖剖析DeepSeek的技術細節,以改進其Llama系列模型,並且新年計劃中預算4000億起步搞AI,年底AI算力將達130萬卡。
奧特曼也緊急透露新模型o3-mini即將免費上線ChatGPT的消息,試圖挽回一點市場熱度。

現在有了新模型發布,關於DeepSeek的討論還在繼續。
DeepSeek新版疑似很快發布,時間是2025年2月25日。

杭州昨夜不眠
同一個夜晚,同一個杭州。
就在DeepSeek新模型發布不久,Qwen也更新了自己的開源家族:
Qwen2.5-VL。

這個標題怎麼有三體那味了。
它有3B、7B 和72B三種尺寸,可以支援視覺理解事物、Agent、理解長影片並且捕捉事件,結構化輸出等等。
(詳情內容可參考下一篇推文)
ps,最後,繼杭州六小龍之後,廣東AI三傑也出現了。
(杭州六小龍分別是遊戲科學、DeepSeek、宇樹科技、雲深處科技、強腦科技和群核科技)
他們分別是湛江人梁文鋒(DeepSeek創辦人),汕頭人楊植麟(月之暗面、Kimi創辦人)以及AI學術大佬廣州人何愷明。
來源:量子位