黃仁勳GTC大會主題演講:盛讚完DeepSeek 就發新模型要搶客戶
從揭曉新AI處理器致敬女天文學家,到發布首款開源機器人模型,再到盛贊DeepSeek並強調不會衝擊自家芯片需求,最後又發布一款新推理模型號稱可以秒殺DeepSeek;這構成了今天黃仁勳在GTC大會主題演講的幾個精彩時刻。

還是那身黑色皮衣,黃仁勳走上GTC舞台,宣布自己依然不會使用提詞器,甚至連筆記都還沒準備好。激情即興是他的演講標誌風格,拿著幻燈片遙控器就可以一路說下去。

今天在加州聖荷西舉辦的GTC 2025大會上,英偉達CEO黃仁勳向全球展示了他們在人工智慧(AI)領域的最新技術突破。從宣布下一代GPU架構到將AI帶入商用,宣布快餐巨頭Taco Bell的合作,英偉達不僅鞏固了其在AI運算領域的領導地位,還將其技術觸角延伸至零售服務業。
這是英偉達在疫情後第二次在聖荷西舉辦GTC大會。本次大會吸引了約25,000名與會者,包括微軟、Google、Waymo和福特等產業巨頭,共同探討AI硬體的未來應用。
早上八點SAP體育場外就排起了隊,只為了儘早入場現場聆聽黃仁勳的主題演講,因為體育館場內座位有限,排在後面的只能在外面看大屏幕。黃仁勳開玩笑稱,自己需要更大的會場。
為什麼GTC大會如此吸引關注?身為AI時代的引擎供應商,英偉達短短兩年就成為了半導體巨無霸,甚至一度市值超過蘋果,成為了全球市值最高企業。不誇張地說,整個科技業都在密切關注英偉達的每一次發布會,關注著新一代處理器,因為這直接關係到未來幾年的AI算力。
那麼今天的GTC 2025,黃仁勳宣布了哪些重磅產品與消息?
新處理器致敬女天文學家
如外界預期,黃仁勳在主題演講中發布了全新AI處理器“Vera Rubin”,以美國女天文學家維拉·魯賓(1928-2016)命名。這款晶片整合了英偉達首款客製化CPU “Vera”和全新設計的GPU,標誌著英偉達在處理器設計上的重大突破。這款處理器預計於2026年下半年出貨。
Vera CPU基於英偉達自研的Olympus核心架構,先前英偉達多依賴Arm的現成設計(如Cortex系列)。客製化設計讓Vera在效能上比Grace Blackwell晶片中的CPU快約兩倍,具體表現為更高的每時脈週期指令數(IPC)和更低的功耗。

英偉達表示,這款全新處理器將採用台積電的3nm製程製造,電晶體密度較5nm製程提升約2.5倍,達到每平方毫米約1.5億個電晶體。這種製程進步顯著提升了計算效率,尤其適合AI推理任務的高平行需求。
Rubin GPU技術上由兩個獨立晶片組成,透過英偉達的NV-HBI(High Bandwidth Interface)技術以超高頻寬互聯,工作時表現為單一邏輯單元。其核心規格包括支援高達288GB的HBM3e記憶體(高頻寬記憶體第三代增強版),頻寬達每秒5TB,比Blackwell的HBM3記憶體(141GB,頻寬4TB/s)提升顯著。
在推理任務中,Rubin可達到50 petaflops的效能(每秒5´10¹⁶次浮點運算),是目前Blackwell晶片(20 petaflops)的兩倍以上。這項提升得益於其新增的Tensor Core單元,專為矩陣運算優化,加速深度學習模型的推理與訓練。

Rubin的目標客戶包括亞馬遜和微軟等雲端服務商和AI研究機構。其高記憶體容量和運算能力特別適合運行大型語言模型(如Llama 3或Grok),這些模型通常需要數百GB記憶體來儲存權重和中間結果。英偉達也展示了Rubin支援的新軟體工具包Dynamo,可動態優化多GPU協同工作,進一步提升效能。
除了Rubin之後,黃仁勳還宣布英偉達計劃在2027年下半年推出”Rubin Ultra”,將四個GPU晶片集成於單一包裝,性能高達100 petaflops。
Rubin Ultra採用名為NVLink 5.0的新一代連網技術,晶片間頻寬預計達每秒10TB,比NVLink 4.0(600GB/s)提升一個數量級。這種設計允許將多個Rubin Ultra組合成超級運算集群,如Vera Rubin NVL144機架(含144個GPU),為超大規模AI訓練提供支援。
Rubin Ultra的每個GPU核心預計包含超過200億個電晶體,採用2nm製程製造,功耗控制在約800W以內(相較於Blackwell單晶片700W)。其記憶體支援升級至HBM4,提供高達576GB容量,頻寬預計達每秒8TB/s。這種配置使其能處理複雜的生成式AI任務,如即時視訊生成或多模態模型推理。
雖然Rubin兩款處理器堪稱怪獸級,但市場需要等到明後年才能部署。英偉達計劃今年下半年推出目前Blackwell系列的增強版產品-Blackwell Ultra。

Blackwell Ultra提供多種配置,包括:
– 單晶片版本(B300):20 petaflops效能,288GB HBM3e記憶體;
– 雙晶片版本(GB300):搭配Arm CPU,耗電量約1kW;
– 機架版本:含72個Blackwell晶片,適用於資料中心。
Blackwell Ultra的亮點是記憶體升級(從192GB增至288GB)和更高的token產生速率。英偉達稱,其每秒可產生更多AI輸出(如文字或圖像),適合時間敏感的應用。雲端服務商可利用其提供高級AI服務,潛在收入可能是2023年Hopper晶片的50倍。
此外,黃仁勳還透露,英偉達計劃在2028年將推出以物理學家理查德·費曼(Richard Feynman)命名的Feynman GPU。 Feynman將延續Vera CPU設計,但架構細節未公開。預計將採用1.5nm工藝,性能可能突破200 petaflops,目標是支援下一代AI代理模型,如具備推理能力的自主系統。

黃仁勳強調,英偉達已從兩年一次的架構更新轉向每年更新發布的節奏,以應對AI需求的「超加速」成長。自2022年底ChatGPT發布以來,英偉達銷售額激增六倍,其GPU佔據AI訓練市場超過八成的市佔率。
上月底發布的第四季財報顯示,英偉達當季營收達393億美元,季增12%,年增78%。全年營收為1305億美元,年增114%。其中資料中心營收為356億美元,佔總營收的91%,較上一季成長16%,年增93%。這一成長不僅來自Hopper GPU的持續銷售,還包括Blackwell晶片的初步貢獻。
首款開源人形機器人模型
黃仁勳也在主題演講中,正式發布了NVIDIA Isaac GR00T N1,宣布“機器人的時代已經到來”,這是全球首款開源的人形機器人基礎模型。這是英偉達「Project GR00T」計畫的最新成果,基於2024年GTC大會上首次推出的機器人研究計畫。
N1代表“第一代”,是英偉達專為加速人形機器人開發設計的通用AI模型。與傳統機器人依賴特定任務程式設計不同,GROOT N1是一個「通才模型」(generalist model),能夠處理多種任務並適應不同的人形機器人形態。
該模型使用真實資料和合成資料(synthetic data)混合訓練,其中合成資料由英偉達的Omniverse平台產生。這種方法大幅降低了現實世界資料收集的成本和時間。 GROOT N1以開源形式發布,開發者可透過Hugging Face和GitHub下載其訓練資料和任務評估場景。這種開放性旨在推動全球機器人社群的協作創新。

黃仁勳在主題演講中現場示範展示了GROOT N1的商用實力:
1X NEO Gamma:1X公司的NEO Gamma人形機器人使用GROOT N1的後製訓練策略(post-trained policy),展現了自主整理家居的能力。 1X CEO Bernt B
ørnich說:“GROOT N1在機器人推理和技能上的突破,讓我們僅用少量數據就實現了全面部署。”
迪士尼BDX機器人:兩台受《星際大戰》啟發的BDX機器人(暱稱“Green”和“Orange”)在台上跟隨黃仁勳移動,並對他的指令(如“現在不是吃飯時間”)做出點頭回應,展現了自然語言理解和動作協調能力。
黃仁勳在演講中指出,GROOT N1的發表不僅是技術突破,也是對未來機器人產業的戰略佈局。他預測,人形機器人市場在未來十年可能達到380億美元,尤其在工業、製造和服務領域。他表示:“GROOT N1和新的數據生成框架將開啟AI時代的新前沿。”

AI點餐帶入連鎖餐廳
在此次大會上,黃仁勳也宣布了英偉達與全球餐飲巨頭百勝餐飲(Yum! Brands)的策略合作,百勝旗下的墨西哥風味餐廳Taco Bell將率先引入AI優化得來速服務(Drive Thru,不下車語音點餐)。
目前,數百家Taco Bell餐廳已使用英偉達提供的語音AI系統接受訂單。百勝餐飲計畫從2025年第二季起,將技術推廣至約500家餐廳,包括必勝客、肯德基和Habit Burger and Grill。
英偉達為Taco Bell客製了基於Transformer架構的語音辨識模型,運行於邊緣設備(如Nvidia Jetson平台)。該系統支援即時語音轉文字(ASR)和自然語言處理(NLP),延遲低至200毫秒。

百勝餐飲高層介紹了英偉達技術如何為自己服務帶來提升:AI將升級為視覺+語音系統,利用攝影機和英偉達GPU分析排隊車輛數量。例如,當偵測到五輛車排隊時,AI可建議快速出餐的選項(如Taco而非複雜的Burrito),縮短平均等待時間(目標從180秒降至120秒)。英偉達的推理加速技術(如TensorRT)將支援這些即時決策。
英偉達並不是最早嘗試將AI帶入速食業的巨頭。早在2021年,IBM就和麥當勞合作,在100多家餐廳測試AI語音點餐,但使用體驗還存在諸多問題,經常會有聽錯點餐的情況,準確率只有80%左右,雙方已經在2024年結束了測試合作。
與百勝餐飲合作是英偉達將AI帶入速食業服務的第一步,他們顯然也吸收了IBM的測試經驗。英偉達零售業務發展總監安德魯·孫指出,AI需兼顧速度與質量,避免給用戶帶來偏差,成為社交網路笑柄。百勝餐飲主管強調,員工和顧客的信任至關重要:「通用大模型不夠好,我們需要客製化解決方案。」例如,Taco Bell的AI需理解品牌文化,而非機械執行標準流程。
對DeepSeek讚不絕口
值得一提的是,黃仁勳在主題演講中,對來自中國的AI公司DeepSeek讚不絕口,給予了極高的評價,多次強調DeepSeek不會給英偉達帶來衝擊。黃仁勳在演講中稱讚DeepSeek的R1模型為「卓越的創新」(excellent innovation)和「世界級的開源推理模型」(world-class open-source reasoning model)。
今年1月DeepSeek發表R1模型後,以極低的訓練成本提供了媲美甚至優於OpenAI的性能,震撼了整個美國AI行業,甚至一度導致晶片行業股價大跌。因為如果DeepSeek得以普及,AI產業就不一定需要瘋狂軍備競賽囤積英偉達的AI處理器了。

黃仁勳特別反駁了市場早期的恐慌,即DeepSeek的高效模型會降低對英偉達晶片的需求。黃仁勳提到,DeepSeek R1發表後(2025年1月),市場曾誤以為AI硬體需求會減少,導致英偉達市值一度暴跌6,000億美元。他對此解釋稱,“市場認為’AI完成了’,我們不再需要更多計算資源。這種想法完全錯誤,恰恰相反。”
他強調,DeepSeek R1代表的「推理型AI」(reasoning AI)同樣需要對很高的運算能力。他解釋說,與傳統觀念認為AI僅需預訓練後即可直接推理不同,推理型模型需要大量後期訓練和即時算力支持。他表示:“推理是一個相當耗費計算資源的過程。像DeepSeek這樣的模型可能需要比傳統模型多100倍的計算能力,未來的推理模型需求還會更高。”
他指出,DeepSeek的成功顯示高效能模型與強大算力的結合是未來趨勢,而英偉達的晶片(如Blackwell Ultra)正是為此訂製的。他還幽默地稱:「DeepSeek點燃了全球熱情,這對我們是好消息。」英偉達已與包括Meta、谷歌和亞馬遜在內的客戶加大投資,確保其晶片滿足日益增長的AI基礎設施需求。
他指出,R1的發布不僅沒有削弱英偉達的市場地位,反而推動了全球對AI的熱情。 “幾乎每個AI開發者都在使用R1,這表明其影響力正在擴大AI的採用範圍。”
黃仁勳因此透露,英偉達已經將DeepSeek R1作為新品基準測試的一部分。例如,他提到Blackwell Ultra晶片在設計時優化了推理任務,能更有效率地運行R1這類模型。他具體指出:“Blackwell Ultra的Tensor Core經過調整,支持高密度矩陣運算,每秒token生成率顯著提升,非常適合推理型AI。”
面對DeepSeek引發的競爭壓力,黃仁勳淡化了對英偉達的威脅。他在演講中說:“DeepSeek展示了模型可以更有高效,但這並不意味著硬體需求減少。相反,它讓所有人意識到,高效模型需要更強的計算支援。”

新推理模型秒殺DeepSeek
盛讚完DeepSeek,黃仁勳又宣布推出了一款基於Llama的新推理模型-Nvidia Llama Nemotron Reasoning。他將這一模型描述為“一個任何人都能運行的令人難以置信的新模型”,並強調其在企業AI應用中的潛力。這項發布標誌著英偉達在AI模型開發領域的進一步擴展,從硬體供應商轉型為軟體與模型生態的全面參與者。
黃仁勳特別強調了Nvidia Llama Nemotron Reasoning在準確性和速度上的卓越表現,聲稱其「大幅超越」(beats substantially)中國AI公司DeepSeek的R1模型。
Nvidia Llama Nemotron Reasoning是英偉達Nemotron模型家族的新成員。 Nemotron系列最初設計用於增強AI代理的能力,儘管「AI代理」這一概念在行業中仍未完全明確定義。通常,AI代理被理解為能夠自主執行任務、推理並與環境互動的智慧系統,例如客服機器人或自動化助理。黃仁勳在演講中並未詳細解釋「AI代理」的具體意義,但暗示Nemotron Reasoning將為企業提供更強大的推理能力,支援複雜決策和任務處理。
模型基於Meta開源的Llama架構,但經過英偉達的深度客製化和最佳化。 Llama作為一個高效、開源的大語言模型基礎,近年來被廣泛用於學術和商業領域,而英偉達透過其算力優勢和軟體生態(如TensorRT和Dynamo)對Llama進行了效能提升,使其適配企業級應用。
Llama Nemotron家族模式將與DeepSeek競爭,為高階代理商提供企業就緒的AI推理模型。顧名思義,Llama Nemotron基於Meta的開源Llama模型。英偉達透過演算法修剪了模型,以優化計算需求,同時保持準確性。
英偉達也應用了複雜的後期訓練技術,使用合成資料進行訓練。訓練過程涉及36萬個H100推理小時和4.5萬個小時的人工標註,以增強推理能力。據英偉達稱,所有這些訓練造就了在數學、工具呼叫、指令遵循和對話任務等關鍵基準測試中具有卓越推理能力的模型。