老黃發表新核彈B300 英偉達：B200已破DeepSeek-R1推理世界紀錄

2025-03-19 Comments 0 Comment

皮衣老黃，帶著最強AI晶片GB300閃亮登場「AI超級盃」GTC，燃爆全場！效能方面，和去年發表的GB200相比，推理效能是其1.5倍。

據悉，GB300將在今年的下半年出貨。

除此之外，老黃也預覽（2026年下半年出貨）了英偉達下一代AI超級晶片，名字大變樣－Vera Rubin。

其實它的命名規則和Grace Blackwell（GB）類似：Grace是CPU，Blackwell是GPU。

而Vera Rubin中的Vera是CPU，Rubin是GPU。根據老黃的說法：

幾乎所有細節都是新的。

從預覽的效能來看，Vera Rubin整體效能更是GB300的3.3倍。更具體一些：

Vera：CPU的記憶體是Grace的4.2倍，記憶體頻寬是Grace的2.4倍。

Rubin：將配備288GB的HBM4。

在Vera Rubin之後的下一代GPU（2027年下半年），英偉達會將其命名為Rubin Ultra，性能直接拉到GB300的14倍。

一個直覺的對比，如下圖：

更多的具體性能對比，是這樣的：

性能上的提升，也正應了老黃在現場說的話：

大規模推理是一種極限計算。

大規模推理是一種極限計算。

不僅如此，就連Rubin之後的下一代GPU，老黃也給亮了——將以Feynman來命名。

而縱觀整場GTC，我們可以輕鬆提煉老黃提及最多的幾個關鍵字：tokens、推理和Agentic AI。

但除此之外，還有一個比較有趣的關鍵字—— DeepSeek。

英偉達官方部落格表示：

實現了DeepSeek-R1推理性能世界紀錄。

每個使用者每秒可處理超過250個token；實現每秒超過30000個token的最大吞吐量。

但這項紀錄採用的是B200，英偉達表示隨著Blackwell Ultra等新GPU的出現，紀錄也將持續被打破。

而老黃在現場體現傳統LLM和推理LLM的區別時，也是拿著DeepSeek-R1來舉例：

嗯，微妙，實在有點微妙。

那麼除了一系列新GPU之外，還有什麼？我們繼續往下看。

推出兩款個人AI超級計算機

首先，第一款個人AI超級計算機，叫做DGX Spark。

它就是老黃在今年1月CES中發布的那個全球最小的個人AI超級電腦Project Digits，這次取了個正式的名字。

DGX Spark售價3000美元（約21685元），大小和Mac Mini相當。

它採用的是英偉達GB10晶片，能夠提供每秒1000兆次的AI運算，用於微調和推理最新AI模型。

其中，GB10採用了NVLink-C2C互連技術，提供CPU+ gpu的相干記憶體模型，頻寬是第五代PCIe的5倍。

值得一提的是，英偉達官網已經開發預定了哦~

至於第二款個人AI超級電腦，則是DGX Station。

DGX Station所採用的，正是今天推出的GB300，也是首款採用這款晶片的AI電腦。

其性能如下：

擁有784GB的相干記憶體空間

擁有英偉達的ConnectX-8超級網路卡，支援高達800Gb/s的網路速度

擁有NVIDIA的CUDA-X AI平台，可存取NIM微服務和AI Enterprise

用老黃的話來說就是：

這就是PC該有的樣子。

這才是 PC 該有的樣子。

至於上市趕時間，則是將於今年稍晚從華碩、BOXX、戴爾、惠普、Lambda和美超微等廠商處推出。

△

搭載GB300的DGX Station主機板

而根據英偉達官方的介紹，這兩款個人AI超級計算機，是針對研究人員、資料科學家、AI開發者和學生設計的。

除此之外，老黃在這屆GTC還涉足了以太網，推出全球首個以AI為導向的乙太網路平台－Spectrum-X。

它由英偉達的Spectrum-4乙太網路交換器和BlueField-3 SuperNIC共同發力，能為AI、機器學習和自然語言處理等提供高效能支援。

相較於傳統以太網，Spectrum-X可將AI網路效能提升1.6倍，提升AI雲的電力效率。

以及還包括基於矽光學的Spectrum-X Photonics和Quantum-X Photonics網路交換平台，用於使用矽光學的超大規模資料中心。

新的網路交換平台將連接埠資料傳輸速度提升至1.6Tb/s，總傳輸速度達到400Tb/s，使數百萬個GPU能夠無縫協同工作。

也開源了一系列軟體

除了硬件，英偉達這次在軟體開源方面也有幾個新動作。

其中最重磅的，當屬發布NVIDIA Dyamo，一個用於加速AI模型推理的分佈式推理服務庫。

老黃將其稱為“AI工廠的操作系統”，核心目標在於提高推理性能的同時降低Test-Time算力消耗。

根據英偉達的說法，在NVIDIA Blackwell上使用Dynamo優化推理，能讓DeepSeek-R1的吞吐量提升30倍。

至於背後原因，主要在於Dynamo可以透過動態調整GPU資源來應對請求波動，並優化資料卸載到成本更低的儲存設備，從而降低推理成本並提高效率。

目前Dynamo已完全開源，支援PyTorch、SGLang、NVIDIA TensorRT ^y TM以及vLLM，在GitHub取得後即可將推理工作分配到多達1000個NVIDIA GPU晶片。

此外，英偉達也宣布開源新的AI推理模型－Llama Nemotron，該系列模型也曾出現在今年1月的CES上。

據介紹，Llama Nemotron基於開源Llama基礎模型構建，採用英偉達最新技術和高品質資料集進行剪枝和訓練，優化了計算效率和準確性。

為了直觀展示其性能，老黃在大會上將它和Llama 3.3（70B）以及DeepSeek R1 Llama （70B）進行了對比，下圖展示了它們在Agentic任務上的平均準確率（橫軸）與每秒處理的tokens數量（縱軸）：

可以看出，新的推理模型以49B參數量表現遠超另外兩個模型，在Agentic任務中表現更為突出。

目前Nano和Super模型可在NIM微服務中獲取，Ultra模型即將推出。

同時，英偉達在自動駕駛和具身智慧方面也有新進展。

大會開始不久，老黃即宣布英偉達與通用汽車達成合作：

通用將在自動駕駛上使用英偉達的AI技術。

在這之後，英偉達正式發表了端到端自動駕駛汽車全端綜合安全系統NVIDIA Halos。

這個系統主要將NVIDIA的汽車硬體和軟體解決方案與尖端AI研究相結合，以確保從雲端到車輛的自動駕駛汽車（AVs）的安全開發。

在介紹過程中，老黃多次提到了「安全性」這個詞，並公開聲稱：

我們是世界上第一家對每一行程式碼進行安全評估的公司

落實到具體上，Halos系統主要在三個互補的層面提供支援：

技術層面：包括平台安全、演算法安全和生態系統安全；

開發層面：涵蓋設計階段、部署階段和驗證階段的安全防護措施；

運算層面：從AI訓練到部署的全過程，利用三種強大的運算平台，分別是NVIDIA DGX用於AI訓練，NVIDIA Omniverse和NVIDIA Cosmos在NVIDIA OVX上運行用於模擬，以及NVIDIA DRIVE AGX用於部署。

到了大會的最後階段，老黃宣布英偉達與Google DeepMind和Disney Research正合作開發下一代開源模擬物理模型Newton。

根據英偉達介紹，Newton基於NVIDIA Warp構建，支援與MuJoCo Playground或NVIDIA Isaac Lab等學習框架相容。

它主要用於機器人模擬訓練，使用後可以幫助研究人員安全、加速且低成本地訓練/開發/測試/驗證機器人控制演算法和原型設計。

同時，英偉達也同步推出了Isaac GR00T N1，號稱全球首個開源的、完全可客製化的人形機器人基礎模型。

它採用雙系統架構，靈感來自人類思考模式，包括快速思考的動作模型（System 1）和慢速思考的決策模型（System 2）。

在大會演示中，GR00T N1能夠輕鬆泛化常見的任務，例如抓取、移動物體以及在雙臂之間轉移物品，或執行需要長時間推理的複雜任務。

最後的最後，老黃在謝幕前還成功「召喚」出了配備GR00T N1模型的機器人－Blue（星際大戰機器人）。

雖然過程中有些不聽話的“叛逆行為”，但好在還是給了點老黃面子（doge）。

還有一件事

今年的GTC大會，除了老黃的主題演講，還有一件事最值得期待：

那就是今年首次設立的「量子日」活動，屆時老黃將與D-Wave Quantum和Rigetti Computing等十餘家量子計算行業領先企業的高管同台，討論量子計算的技術現狀、潛力以及未來發展方向。

要知道今年年初時，老黃一句“量子計算還需20年才實用”，相關概念股曾應聲腰斬。

所以大家這次都在觀望，老黃是否又會“語出驚人”，相關探討是否會對量子計算產業產生更大影響。

咱們繼續坐等答案揭曉~

WONGCW 網誌

記錄生活經驗與點滴

老黃發表新核彈B300 英偉達：B200已破DeepSeek-R1推理世界紀錄

2025-03-19 Comments 0 Comment

相關

發表迴響取消回覆

2025 年 3 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

分享此文：

相關

發表迴響取消回覆