黃仁勳GTC演講全文:最強AI晶片Blackwell問世推理能力提升30倍
英偉達創辦人黃仁勳在美國加州聖荷西SAP中心,發表了GTC 2024的主題演講《見證AI的變革時刻》。發表會上,黃仁勳介紹了全新晶片Blackwell,他稱Blackwell的推理能力是驚人的,相較於前代產品H100有著驚人的提升,是Hopper的30倍。
英偉達表示,Blackwell 架構的GPU 預計將於今年稍後出貨。
Blackwell以美國數學家和博弈論學家David Blackwell命名,繼承了Hopper GPU 架構,擁有2080億個晶體管,是英偉達首個採用多晶片封裝設計的GPU,在同一個晶片上集成了兩個GPU。
黃仁勳介紹道,如果要訓練一個1.8兆參數GPT模型,大約需要三到五個月的時間:
如果用Hopper來做,可能需要8000個GPU,並且會消耗15兆瓦。8000個GPU和15兆瓦,它會需要90天,大約三個月的時間。
如果你用Blackwell來做,只需要2000個GPU。2000個GPU,同樣的90天。但這是驚人的部分,只需要四兆瓦的電力。
黃仁勳透露,包括AWS、Google、微軟、Oracle等,都在為Blackwell做準備。同時英偉達將持續基於AI強化生態,例如NVIDIA Omniverse Cloud將可連接到蘋果公司混合頭顯Vision Pro、強化模式與通用機器人生態等。
黃仁勳也介紹了人形機器人基礎模型Project GR00T、新款人形機器人電腦Jetson Thor,也與一對來自迪士尼研究公司的小型英偉達機器人互動。
以下為黃仁勳演講全文,由AI翻譯:
歡迎來到GTC大會。希望你們意識到這裡不是音樂會,而是開發者大會。會有大量的科學、演算法、電腦架構、數學等內容。
我感受到了房間裡沉甸甸的氛圍。突然間,好像你們誤入了什麼地方似的。世界上沒有哪個會議能匯聚來自如此多元科學領域的研究人員,從氣候科技到無線電科學,大家都在探索如何使用AI來機器人化控制MIMOS,用於下一代6G無線電,自動駕駛汽車,甚至是各方面的人工智慧。首先,我注意到現場突然一陣鬆懈。同時,這次會議也匯集了一些了不起的公司。
這份名單,並不是與會者名單,這些都是發言嘉賓。令人驚嘆的是,如果你去掉我所有的朋友,親密朋友,邁克爾·戴爾就坐在那裡,在IT行業區。
我在業界成長的所有朋友。如果去掉那份名單,這就是令人驚嘆的地方。這些非IT行業的發言者正在使用加速計算解決普通計算機無法解決的問題。這體現在生命科學、醫療保健、基因組學、交通、零售、物流、製造業、工業等行業的全方位代表。
你們不只是來參加會議的。你們是來展示、討論你們的研究成果的。今天在這個房間裡代表的是全球100兆美元產業的縮影。這絕對令人震驚。
絕對有一些事情正在發生。正在發生一些事情。整個產業正在轉型,不僅是我們的產業,因為電腦產業,電腦是當今社會最重要的工具。基本上的轉型和計算影響了每個行業。但我們是如何開始的?我們是如何達到這裡的?我為你們準備了一個小漫畫。確切地說,我畫了這一頁。這是NVIDIA的旅程,始於1993年。這可能就是剩下的演講內容。1993年,這是我們的旅程。我們成立於1993年。沿途發生了幾個重要事件。我只是簡單地強調了一下。
2006年,CUDA,它被證明是一個革命性的計算模型,我們當時認為它是革命性的,以為它將一夜之間獲得成功。近20年後,它發生了,到了2012年。Alex Net AI和CUDA首次接觸,到了2016年。認識到這個計算模型的重要性,我們發明了一種全新類型的計算機,我們稱之為DGX1,170 teraflops。在這台超級電腦中,八個GPU首次連接在一起。我親自交付了第一台DGX1給一家位於舊金山的新創公司,名為OpenAI。
DGX1是世界上第一台AI超級電腦。記住,170 teraflops。2017年, Transformer到來。2022年,ChatGPT捕獲了世界的想像力。人們意識到人工智慧的重要性和能力。
2023年,生成式AI浮現,新的產業開始形成。為什麼是一個新行業?因為這樣的軟體以前從未存在過。我們現在正在使用電腦編寫軟體,創造以前從未存在過的軟體。這是一個全新的類別。它從無到有佔據了市場份額。這是一個全新的類別。而你生產軟體的方式與我們以前在資料中心所做的完全不同。
產生token,以非常大的規模產生浮點數。彷彿在上一個工業革命的開始,當人們意識到你會建立工廠,向其提供能源,然後這種看不見但極其有價值的東西,電力,交流發電機就此產生。100年後,200年後,我們現在正在創造新類型的電子,token,透過我們稱之為工廠的基礎設施,產生這種新的、難以置信的有價值的東西,人工智慧。一個新的行業已經出現了。
我們將討論這個新行業的許多方面。我們將討論我們接下來將如何進行計算。我們將討論由於這個新行業而構建的新軟體類型,你應該如何看待這些新軟體,這個新行業中的應用程式會是什麼?然後也許是接下來會發生什麼,我們如何從今天開始為即將到來的下一步做準備?
但在我開始之前,我想先向你們展示NVIDIA的靈魂。NVIDIA的靈魂位於電腦圖形、物理學和人工智慧的交會處,所有這些交匯在Omniverse中,一個虛擬世界的模擬。我們今天將向你展示的一切都是仿真的,而不是動畫。它之所以美麗,是因為它是物理性的。世界之所以美麗,是因為它是物理性的。它之所以令人驚嘆,是因為它透過機器人進行了動畫製作。它透過人工智慧進行了動畫製作。你即將看到的所有內容都是完全生成的,完全仿真的,而且都是在Omniverse中生成的。而你即將欣賞的所有內容,你即將欣賞的是世界上第一場一切都是自製的音樂會。你將要看一些家庭影片。所以請坐下來,好好享受吧。
好吧,天啊,我愛NVIDIA。加速運算已達到轉捩點。通用計算已經走到盡頭。我們需要另一種計算方式,以便我們可以繼續擴展,以便我們可以繼續降低計算成本,以便我們可以繼續消耗越來越多的計算,同時保持可持續性。
加速計算與通用計算相比大大加速。在我們參與的每個行業中,我將向你展示很多,影響都是巨大的,但在我們自己的行業中,即使用模擬工具創建產品的行業中,它更為重要。在這個行業中,這不僅僅是關於降低計算成本,而是關於提高計算規模。
我們希望能夠完全模擬我們所做的整個產品,以完全的保真度,完全數位化地進行,本質上就是我們所說的數位孿生。我們希望設計它,建造它,模擬它,完全數位化地操作它。為了做到這一點,我們需要加速整個產業。
今天,我想宣布,我們有一些合作夥伴加入我們這趟旅程,以加速他們的整個生態系統,以便我們可以將世界帶入加速運算的時代。但這裡有一個額外的好處。當你成為加速的一部分時,你的基礎設施就是Cuda GPU。當發生這種情況時,它恰好是生成式AI的完全相同的基礎設施。因此,我非常高興地宣布幾個非常重要的合作關係。
這些是世界上一些最重要的公司,ANSYS為世界製造工程模擬。我們與他們合作,以Cuda加速ANSYS生態系統,將ANSYS連接到Omniverse數位孿生。太棒了。
真正偉大的是,NVIDIA GPU加速系統的安裝基礎遍佈全球,在每個雲端中,在每個系統中,遍及所有企業。因此,他們加速的應用程式將擁有一個巨大的安裝基礎以服務。最終用戶將擁有令人驚嘆的應用程式。當然,系統製造商和CSP將擁有龐大的客戶需求。
Synopsys是NVIDIA字面上的第一個軟體合作夥伴。他們在我們公司的第一天就在那裡。Synopsys透過高級設計徹底改變了晶片產業。我們將CUDA加速Synopsys。我們正在加速計算光刻,這是最重要的應用程式之一,沒有人知道。為了製造晶片,我們必須將光刻推向極限。NVIDIA創建了一個領域特定的庫,大大加速了計算光刻。一旦我們能夠加速並定義台積電所有的軟體,台積電今天宣布他們將與NVIDIA一起投入生產,cuLitho。一旦軟體定義並加速,下一步就是將生成式AI應用到晶片製造的未來。Cadence建構了世界上基本的EDA和SDA工具。我們也使用Cadence,透過這三家公司,ANSYS、Synopsys和Cadence,我們基本上一起建置了NVIDIA。我們正在加速Cadence。他們也正在用NVIDIA GPU建構超級計算機,以便他們的客戶可以以100、1000倍的規模進行流體動力學模擬。基本上是即時的風洞。Cadence Millennium,一台內建NVIDIA GPU的超級計算機,一家軟體公司正在建立超級電腦。我很高興看到這一點。
與Cadence共同建造copilots,想像一下,當Cadence、Synopsys、ANSYS等工具提供者為您提供AI copilots的一天,這樣我們就有成千上萬的copilot助手幫助我們設計晶片,設計系統。我們也將Cadence Digital Twin平台連接到Omniverse。正如你所看到的趨勢,我們正在加速世界上的CAE、EDA和SDA,以便我們可以在數位孿生中創造我們的未來。我們將把它們全部連接到Omniverse,未來數位孿生的基本作業系統之一,受益於規模的行業之一,你們都非常了解這一點,大型語言模型。基本上,在Transformer被發明之後,我們能夠以驚人的速度擴展大型語言模型,實際上每六個月就會翻一番。現在,我們該如何以每六個月翻一番的速度發展這個產業,發展這個運算需求呢?原因很簡單。如果你將模型的大小加倍,你將大腦的大小加倍,你需要兩倍的資訊來填滿它。因此,每次你將參數計數加倍時,你還必須相應地增加你的訓練token計數。這兩個數字的組合成為了計算規模。你必須支援最新的、最先進的OpenAI模型,大約有1.8兆個參數。1.8兆個參數需要幾兆個token進行訓練。所以幾萬億個參數,大約幾萬億個token,大約當你將兩者相乘在一起時,大約有三十、四、五十萬億次浮點運算每秒。
現在我們只需要做一些數學,請跟我一起。所以你有三十億萬億。一個萬億就像一個Peta。因此,如果你有一個Petaflop GPU,你需要300億秒來計算,來訓練那個模型。300億秒大約是1000年。好吧,1000年,這是值得的。想要做得更快一些,但這是值得的。
是的,這通常是我的回答,當大多數人告訴我,嘿,做某事需要多長時間?所以我們得到了20年的價值,但我們下週可以做到嗎?因此,1000年,1000年。所以我們需要更大的GPU。我們需要更大的GPU。
我們很早就認識到了這一點,我們意識到答案是將一大堆GPU放在一起,當然,沿途創新了很多東西,比如發明張量核心,推進MV鏈接,這樣我們就可以創建本質上是虛擬巨型GPU的東西,並將它們全部連接在一起,透過一個名為Mellanox的公司的驚人InfiniBand網絡,這樣我們就可以創建這些巨型系統。
因此,DGX1是我們的第一個版本,但它不是最後一個。我們一直在沿途建造超級電腦。在2021年,我們有Celine,約 40500個GPU。然後在2023年,我們建構了世界上最大的AI超級電腦之一。它剛剛上線。而且,當我們建構這些東西時,我們正在努力幫助世界建構這些東西。為了幫助世界建構這些東西,我們必須先建造它們。我們建構晶片,系統,網絡,所有必要的軟體來做到這一點。
你應該看到這些系統。想像一下寫一段軟體,跨整個系統運行,將運算分佈在成千上萬的GPU上。但裡面有成千上萬的小GPU,數百萬個GPU來分配工作,以便在所有這些中平衡工作負載,以便你可以獲得最高的能源效率,最佳的計算時間,降低成本。因此,這些基本創新是我們到達這裡的原因。
現在我們在這裡,當我們看到ChatGPT在我們面前出現的奇蹟時,我們也意識到我們還有很長的路要走。我們需要更大的模型。我們將用多模態資料來訓練它,而不僅僅是網路上的文本,但我們將用文字和圖像、圖表和圖表進行訓練,就像我們透過看電視學習一樣。因此,將會有許多觀看視頻,以便這些模型可以在物理學上得到基礎,了解手臂不會穿過牆壁。因此,這些模型將透過觀看大量的世界影片與大量的世界語言相結合,具有常識。
它將使用諸如合成數據生成之類的東西,就像你和我學習時一樣,我們可能會使用我們的想像力來模擬它最終會如何,就像我在準備這個主題演講時一樣。我一直在模擬它。我希望它能像我在腦中模擬的那樣好。有人確實說,另一位表演者完全在跑步機上完成了她的表演,這樣她就可以以充滿活力的方式呈現它。我沒有那樣做。如果我在這個過程中有點喘不過氣來,你知道發生了什麼。因此,我們在這裡使用合成數據生成,我們將使用強化學習,我們將在我們的頭腦中練習,我們將讓AI與AI一起工作,相互訓練,就像學生、老師、辯論者一樣,所有這些都將增加我們模型的大小。它將增加我們擁有的資料量,我們將不得不建立更大的GPU。
黃仁勳介紹最新GPU-Blackwell
Hopper很棒,但我們需要更大的GPU。因此,女士們先生們,我想向你們介紹一個非常大的GPU,以數學家、博弈論家、機率論家大衛·布萊克威爾(David Blackwell)的名字命名,我們認為這是一個完美的名字。Blackwell,女士們先生們,請享受。
Blackwell不是晶片。Blackwell是一個平台的名稱。人們認為我們製造GPU,我們確實製造了,但GPU的外觀已經不再像過去那樣了。這是Blackwell系統的核心。而這在公司內部不稱為Blackwell。它只是一個數字。這是Blackwell,這是當今世界上最先進的GPU。
(黃仁勳比較了Blackwell(右)與Hopper GH100 GPU(左)的大小)
2080億個電晶體。因此,我可以看到兩個晶片之間有一條細線。這是第一次以這種方式將兩個晶片緊密連接在一起,以至於兩個晶片認為它是一個晶片。它們之間有10TB的數據,每秒10TB,以至於Blackwell晶片的兩側不知道它們在哪一側。沒有記憶體局部性問題,沒有快取問題。它只是一個巨大的晶片。
當我們被告知Blackwell的野心超出了物理極限時,工程師說,那又怎樣?因此,這就是發生的事情。因此,這是Blackwell晶片,它進入了兩種類型的系統。第一個是與Hopper形狀相容的,因此,你可以滑出Hopper,然後推入Blackwell。這就是為什麼其中一個挑戰之一將是如此高效的原因之一。全世界都安裝了Hopper,它們可以是相同的基礎設施,相同的設計,電力,電力,熱量,軟體,都相同,直接推回去。因此,這是目前HGX配置的Hopper版本。這是另一個Hopper的樣子。現在,這是一個原型板。
因此,這是,這是一個完全功能的板。我會在這裡小心一點。這個,我不知道,100億美元。第二個是5億,之後就便宜了。所以,觀眾中的任何客戶,沒關係,好嗎?但這個是相當昂貴的。這是第一個啟動板,生產時將採用這種方式。好吧。因此,你會拿到這個。
它有兩個Blackwell晶片和四個Blackwell晶片模具連接到Grace CPU。Grace CPU有一個超快速的晶片到晶片連結。令人驚嘆的是,這台計算機是第一台這樣的計算機,這麼多的計算適合這麼小的空間。第二,它是記憶體一致的。他們覺得他們就像一個幸福的大家庭一樣,在一個應用程式中一起工作。因此,它在其中的一切都是一致的。
但這是一個奇蹟。讓我們看看這裡有一些東西。這裡有MV鏈接,PCI Express在底部,一個是CPU晶片到晶片鏈接。希望它已經插好了。
所以這是Grace Blackwell系統,但還有更多。所有的規格都很棒,但我們需要大量的新功能,以便在物理極限之外推動極限,我們希望總是獲得更多的X因子。因此,我們做了一件事,我們發明了另一個Transformer引擎,第二代。它具有動態和自動地重新縮放和重新鑄造數值格式為較低精度的能力。記住,人工智慧是關於機率的。因此,你大致有1.7乘以1.4大約等於其他東西。這有意義嗎?因此,在研究的特定階段保留必要的精確度和範圍非常重要。
因此,這不僅僅是我們設計了一個更小的ALU的事實。世界不是那麼簡單。你必須弄清楚你何時可以在成千上萬個GPU上運行數週又數週的計算中使用它,並且你希望確保訓練工作能夠收斂。
因此,這個新的Transformer引擎,我們有第五代MV Link。它現在是Hopper的兩倍快,但非常重要的是,它在網路中有計算。因為當你有這麼多不同的GPU一起工作時,我們必須與彼此分享我們的訊息。我們必須相互同步和更新。偶爾,我們必須減少部分產品,然後將部分產品重新廣播回其他所有人。因此,有許多所謂的all reduce和all to all和all gather,這都是這個同步和集體的一部分,這樣我們就可以讓GPU相互協作,擁有極其快速的鏈接,並能夠在網絡中進行數學計算,使我們能夠進一步放大。
因此,儘管它是1.8TB每秒,但實際上比這個高得多。因此,它是Hopper的許多倍,超級電腦連續運行數週的可能性幾乎為零。原因是因為同時有這麼多組件在工作。統計上,它們連續工作的機率非常低。因此,我們需要確保,只要我們能夠,我們就會盡可能經常地檢查點和重新啟動。
但如果我們有能力提前偵測到一個弱晶片或一個弱節點,我們可以退役它,也許換入另一個處理器。保持超級電腦利用率高的能力,特別是當你剛剛花費20億美元建造它時,非常重要。
因此,我們加入了一個Ras引擎,一個可靠性引擎,它對Blackweld晶片上的每個門,每個內存位進行100%的自測試和系統測試以及所有連接到它的內存。這就好像我們用來測試我們晶片的高級測試儀隨每個晶片一起發貨一樣。這是我們第一次這樣做。超興奮。安全AI。
顯然,只有這次會議才會為Ras鼓掌,安全AI。顯然,你剛剛花了數億美元創建了一個非常重要的AI。而且,這個AI的智能是編碼在參數中的。你希望一方面確保你不會失去它,另一方面確保它不會被污染。因此,我們現在有能力加密數據,當然,在靜止時,但也在傳輸中。當我們計算時,它都是加密的。因此,我們現在有能力在傳輸中加密,當我們計算時,它在一個受信任的,受信任的引擎環境中。最後一件事是解壓縮。當計算如此之快時,將資料移入和移出這些節點變得非常重要。因此,我們加入了一個高線速壓縮引擎,有效地將資料以20倍的速度移入和移出這些計算機。這些計算機是如此強大,投資如此巨大,我們最不想做的就是讓它們空閒。因此,所有這些功能都旨在盡可能地保持Blackwell的供應並盡可能忙碌。總的來說,與Hopper相比,它的FPA性能提高了兩倍半,每個晶片用於訓練。它還具有這種稱為FP6的新格式,因此,即使計算速度相同,由於記憶體的頻寬被放大,因為你可以在記憶體中儲存的參數量現在被放大了。FP4實際上使吞吐量翻了一番。
這對於推理至關重要。越來越清楚的一件事是,當你在另一邊使用電腦與AI互動時,當你與聊天機器人聊天時,當你要求它審查或生成圖像時,記住,背後是一個GPU在生成token 。有些人稱之為推理,但更恰當的說法是生成,過去的計算是檢索。你會拿起你的手機,你會觸摸一些東西,一些訊號就會發出去。基本上是一封電子郵件發送到某個地方的一些存儲。有預先錄製的內容。有人寫了一個故事,有人製作了一個圖像,有人錄製了一個影片。那些預先錄製的內容然後被流回到手機上,並基於推薦系統以某種方式重新組合,向你展示訊息。你知道,在未來,大部分內容都不會被檢索。原因是因為那是由不了解上下文的某人預先錄製的,這就是為什麼我們必須檢索這麼多內容的原因。如果你可以與了解上下文的AI一起工作,並為你生成信息,就像你喜歡的那樣,我們節省的能源,我們節省的網絡頻寬,我們節省的浪費時間將是巨大的。未來是生成性的,這就是為什麼我們稱之為生成式AI,這就是為什麼這是一個全新的產業。
我們計算的方式根本不同。我們為生成式AI時代創建了一個處理器,其中最重要的部分之一是內容token生成。我們稱之為。這種格式是FP4。好吧,這是大量的計算。
5倍的生成token生成,5倍的Hopper推理能力似乎夠了。但為什麼要在這裡停下來?答案是不夠的。我將向你展示為什麼。
我將向你展示什麼。因此,我們想要一個更大的GPU,甚至比這個更大的GPU。因此,我們決定擴展它並注意到,但首先,讓我告訴你我們在過去八年中如何擴展,我們將計算增加了1000倍。八年1000倍。回想一下摩爾定律的美好時光,它是2倍,好吧,5倍每個什麼?10倍每5年。這是最簡單的地圖。10倍每5年。10年100倍。在PC革命的黃金時代中間,每10年成長100倍。每10年100倍。在過去的八年中,我們成長了1000倍。我們還有兩年要走。
因此,這將使其具有一定的視角。我們正在以瘋狂的速度推進計算,而且仍然不夠快。所以我們又造了一個晶片。這顆晶片太不可思議了。我們稱之為MV Link開關。它是500億個電晶體。它幾乎和Hopper一樣大。這個開關上有四個MV鏈接,每個都是1.8TB每秒。正如我所提到的,它在內部有計算。這個晶片是做什麼用的?如果我們要建構這樣的晶片,我們可以讓每個GPU同時以全速與每個其他GPU通訊。這太瘋狂了。
這甚至沒有意義。但如果你能做到這一點,如果你能找到一種方法來做到這一點,並建立一個成本效益的系統來做到這一點,那將是多麼令人難以置信,我們可以透過一致的鏈接讓所有這些GPU有效地成為一個巨大的GPU。
為了使其成本效益,這個晶片必須能夠直接驅動銅。這個晶片的證書是一個了不起的發明,這樣我們就可以建造一個看起來像這樣的系統。
現在,這個系統有點瘋狂。這是DGX。這就是DGX現在的樣子。記住,就在六年前,它很重,但我還是能抬起來的。我把第一台DGX1交給了OpenAI和那裡的研究人員。它在,你知道,圖片在網路上,我們都簽名了。如果你來我的辦公室,它是簽名的。這真的很漂亮,但你可以抬起來。
這個DGX,順便說一下,是170 teraflops,如果你不熟悉編號系統,那是0.17 pedoflops。所以這是720。我第一次交給OpenAI的是0.17。你可以四捨五入到0.2,沒什麼差別。但那時候就像,哇,你知道,再多30個teraflops。因此,這現在是720 pedoflops,幾乎是一個用於訓練的Xaflop,世界上第一個在一個機架上的Xaflop機器。
順便說一下,目前全球只有2、3個exaflops機器。因此,這是一個Xaflop AI系統,只有一個機架。好吧,讓我們看看背面。所以這是讓它成為可能的東西。這就是背面。這就是,這就是背面。DGX MV Link脊椎,130TB每秒通過那個底座。那就是超過網路總頻寬的聚合頻寬。
因此,我們基本上可以在一秒鐘內將所有東西發送給每個人。因此,我們總共有5000條MV link電纜,總共兩英里。現在,這是驚人的事情。如果我們不得不使用光學,我們將不得不使用收發器和重定時器。而這些收發器和重定時器僅需耗費20,000瓦,2千瓦的電力,僅用於驅動enveloent脊椎。因此,我們透過MV Link開關完全免費完成了這項工作,因此我們能夠為計算節省20千瓦。整個機架是120千瓦。因此,那20千瓦有很大的不同。它是液體冷卻的。進水溫度是攝氏25度,大約是室溫。出水溫度是攝氏45度,大約是你的按摩浴缸溫度。所以室溫進來,按摩浴缸溫度出來,每秒兩公升。
我們可能賣出60萬個週邊設備零件。有人曾經說過,你們知道,你們製造GPU,我們確實製造GPU,但這就是GPU對我來說的樣子。當有人說GPU時,我兩年前看到的GPU是HGX,它是70,35,000個零件。我們現在的GPU有60萬個零件,重3000磅。3000磅。3000磅。這有點像你知道的碳纖維法拉利的重量。我不知道這是否有用,但每個人都在說,我感覺到它,我感覺到它。我現在提到這個,我感覺到它了。我不知道3000磅是什麼?好吧,所以3000磅,一噸半。所以它還不像大像那麼重。這就是DGX的樣子。
現在讓我們看看它在運行中是什麼樣子。好的,讓我們想像一下,我們如何讓這個工作起來,這意味著什麼?嗯,如果你要訓練一個GPT模型,一個1.8兆參數模型,顯然大約需要三到五個月的時間,使用25,000個安培。如果我們用Hopper來做,可能需要8000個GPU,並且會消耗15兆瓦。8000個GPU和15兆瓦,它會需要90天,大約三個月的時間。這將允許你訓練一個,你知道的,這種開創性的AI模型。這顯然不像任何人想像的那麼昂貴,但這是8000個GPU。這仍然是一大筆錢。所以8000個GPU,15兆瓦,如果你用Blackwell來做,只需要2000個GPU。2000個GPU,同樣的90天。但這是驚人的部分,只需要四兆瓦的電力。
我們的目標是不斷降低成本和與計算相關的能源消耗,它們是直接成正比的,這樣我們就可以繼續擴展和升級我們為了訓練下一代模型而必須進行的計算。
訓練推理或生成非常重要,非常重要。你知道,現在NVIDIA GPU在雲端的使用時間大約有一半是用來產生Token的。你知道,它們要么在做副駕駛,要么在做聊天,你知道的,ChatGPT或者其他你與之互動的不同模型,或者生成圖像或視頻,生成蛋白質,生成化學物質。所有這些都是基於我們稱之為推理的計算類別。
但對於大型語言模型來說,推理是非常困難的,因為這些大型語言模型有幾個特性。首先,它們非常大,所以它不適合在一個GPU上。這就是想像Excel不適合在一個GPU上。你知道,想像你日常運行的某個應用程式不適合在一台電腦上,就像一個電玩遊戲不適合在一台電腦上。而且事實上,大多數應用程式在過去的超大規模計算中,許多人的應用程式都適合同一台電腦。
現在突然出現了一個推理應用程序,你正在與這個聊天機器人互動。這個聊天機器人需要一個超級電腦在後端運行它。這就是未來,這些聊天機器人是生成性的,這些聊天機器人有數萬億的Token,數萬億的參數,它們必須以互動速率產生Token。
現在,這意味著什麼?好吧,3個Token大約是一個單詞,我們正在嘗試產生這些Token。當你與它互動時,你希望Token盡快回到你身邊,盡可能快地閱讀它。所以生成Token的能力非常重要。你必須在這個模型的多個GPU上分配工作,這樣你就可以實現幾件事。
一方面,你希望有吞吐量,因為吞吐量降低了產生每個Token的成本。所以你的吞吐量決定了服務的成本。另一方面,你有一個互動速率,就是每秒產生的Token數,這與每個使用者的服務品質有關。所以這兩件事相互競爭,我們必須找到一種方法,在所有這些不同的GPU上分配工作,並以一種使我們能夠實現兩者的方式癱瘓它。
事實證明,搜尋空間是巨大的。你知道,我告訴你會涉及到數學,每個人都在說,哦,親愛的,我剛才看到有人喘氣,當我掛上那張幻燈片時。
你看看,這個右邊的y軸是每秒資料中心吞吐量的Token。x軸是每秒互動性的Token。注意右上角是最好的。你希望互動性非常高。每個使用者的每秒Token數。你希望每秒每個資料中心的Token數非常高。右上角是非常好的。
然而,這非常困難。為了讓我們能夠在每一個這些交叉點,x、y座標上找到最佳答案,你必須查看每一個x、y座標。所有這些藍色的點都來自某種重新分區的軟體。
一些最佳化解決方案必須去找出是否使用張量並行、專家並行、管線並行或資料並行,並將這個巨大的模型分佈在所有這些不同的GPU上,並保持你需要的效能。如果沒有NVIDIA GPU的可程式性,這個探索空間將是不可能的。所以我們可以,因為有了CUDA,因為我們有如此豐富的生態系統,我們可以探索這個宇宙並找到那個綠色的屋頂線。你會發現你得到了TP2、EPA、DP4,這意味著在兩個GPU上進行2個並行,8個專家並行,4個資料並行。注意在另一端,你有4個張量並行和16個專家並行。這個軟體的配置、分佈,它是一個不同的運行時,會產生這些不同的結果。你必須去發現那個屋頂線。好吧,這只是一個模型。這只是一個計算機配置。想像一下全世界正在創造的所有模型和所有不同的系統配置。
所以現在你理解了基礎知識,讓我們來看看Blackwell與Hopper的推理比較。這是一件了不起的事情,因為我們創造了一個為萬億參數生成性AI設計的系統,Blackwell的推理能力是驚人的。事實上,它是Hopper的30倍。像ChatGPT這樣的大型語言模型,藍線是Hopper。我給了你,想像我們沒有改變Hopper的架構,我們只是讓它變成了一個更大的晶片。我們只是使用了最新的、最棒的10TB每秒。我們將兩個晶片連接在一起。我們得到了這個巨大的2080億參數晶片。如果我們沒有改變其他任何東西,我們的表現會怎麼樣?結果非常出色。這就是紫色線,但不如它可能的那麼好。這就是FP4張量核心、新的變換器引擎,以及非常重要的MV長度開關的原因。所有這些GPU都必須共享結果,部分產品,每當它們進行所有到所有聚集時,每當它們相互通信時。MV連結開關的通訊速度幾乎是我們過去使用最快網路的10倍。
好的,所以Blackwell將是一個驚人的生成性AI系統。在未來,資料中心將被視為AI工廠。AI工廠的生活目標是在這個設施中產生收入,產生智能,而不是像上一次工業革命中的交流發電機那樣產生電力。這種能力非常重要。
Blackwell的興奮程度真的非常高。你知道,當我們一年半前,兩年前,我想,兩年前當我們開始推出Hopper時,我們有幸有兩家CSP加入我們的發布會,我們非常高興。所以我們現在有更多的客戶了。
對Blackwell的興奮程度難以置信。難以置信。而且有各種各樣的配置。當然,我向你展示了滑入Hopper外形尺寸的配置,所以升級很容易。
我向你展示了一些例子,它們是液體冷卻的,是它的極端版本。整個機架透過MV Link 672連接。Blackwell將向全世界的AI公司推出,現在有這麼多公司在不同的模態中做著驚人的工作。每個CSP都準備好了。所有OEM和ODM,區域性雲,主權AI和全球電信公司都在簽約推出Blackwell。
Blackwell將成為我們歷史上最成功的產品發布,所以我迫不及待地想看到那一天。我想感謝一些合作夥伴加入我們。AWS正在為Blackwell做準備。他們將建立第一個GPU,即安全AI。他們正在建造一個222 x FLOPS的系統。
你知道,就在剛才,當我們啟動數位孿生時,如果你看到了,所有這些集群都下來了。順便說一下,那不僅僅是藝術,那是我們正在建造的數位孿生。它將有多大。除了基礎設施,我們還在與AWS一起做很多事情。我們的Cuda正在加速Sagemaker AI。
Amazon Robotics正在使用NVIDIA Omniverse和Isaac Sim與我們合作。AWS Health已經將NVIDIA Health整合到其中。所以AWS真正深入到了加速運算。Google也在為Blackwell做準備。GCP已經擁有了數百個H1、T Force、L Force,一系列NVIDIA CUDA GPU。他們最近宣布了一個跨越所有這些的Gemma模型。我們正在努力優化和加速GCP的每一個面向。
我們正在加速資料處理引擎Data Procs,他們的資料處理引擎Jax,XLA,Vertex AI,以及用於機器人的Mujoko。所以我們正在與Google和GCP合作,跨越一系列倡議。Oracle正在為Blackwell做準備。Oracle是我們NVIDIA DGX Cloud的絕佳合作夥伴,我們也一起加速一些對許多公司來說非常重要的事情,Oracle資料庫。
Microsoft正在加速,並且正在為Blackwell做準備。Microsoft,NVIDIA與Microsoft有著廣泛的合作關係。我們正在加速,可以加速你在Microsoft Azure中聊天時使用的許多服務,顯然是AI服務,很可能是NVIDIA在後台進行推理和產生Token。
我們建造了,他們建造了最大的NVIDIA Finiband超級計算機,基本上是我們的數位孿生或物理孿生。我們正在將NVIDIA生態系統帶到Azure。NVIDIA做了你的雲到Azure。NVIDIA Omniverse現在託管在Azure中,NVIDIA Healthcare在Azure中,所有這些都與Microsoft Fabric深度整合和連接。整個產業都在為Blackwell做準備。
這就是我要向你們展示的。你們迄今為止看到的大多數Blackwell場景都是Blackwell的全保真設計,我們公司中的每一件事都有一個數位孿生。事實上,這個數位孿生的概念真的在傳播,它幫助公司第一次就完美地建構非常複雜的東西。還有什麼比創造一個數位孿生更令人興奮的呢?建造一個在數位孿生中建造的電腦。所以讓我向你們展示Wistron正在做什麼。
為了滿足NVIDIA加速運算的需求。Wistron,我們的領先製造合作夥伴之一,正在使用Omniverse SDK和API開發的自訂軟體,為他們的新工廠建立NVIDIA DGX和HGX工廠歷史記錄的數位孿生。Wistron從數位孿生開始,將他們的多重CAD和製程模擬資料虛擬整合到統一視圖中。在這個物理精確的數位環境中測試和優化佈局,提高了工人效率51%。在建設過程中,Omniverse數位孿生被用來驗證實體建構是否符合數位計畫。早期識別任何差異有助於避免昂貴的變更訂單,結果令人印象深刻。使用數位孿生幫助Wistron的工廠在一半的時間內上線,只需兩個月半而不是五個月投入運作。Omniverse數位孿生可協助快速回退,測試新佈局以適應新製程或改善現有空間中的操作,並使用來自生產線上每台機器的即時IoT資料監控即時操作,最終使Wistron將端到端週期時間縮短了50%,缺陷率降低了40%。有了NVIDIA AI和Omniverse,NVIDIA的全球合作夥伴生態系統正在建立一個新的加速AI啟用的數位時代。
這就是我們將要做的事情。將來我們會先在數字上製造一切,然後才會在實體上製造。人們問我,是怎麼開始的?是什麼讓你們如此興奮?是什麼讓你們決定全力以赴投入這個不可思議的想法?就是這樣。等一下,夥計們。那將會是一個如此的時刻。那就是當你不排練時會發生的事情。
黃仁勳介紹英偉達的AI微服務NIM
這是你們知道的,這是2012年的第一次接觸,Alex Net。你把一隻貓放進這台電腦,它出來說貓。你把100萬個數字通過三個通道,RGB。這些數字對任何人來說都毫無意義。你把它放進這個軟體,它會壓縮它,減少它。它把它從一百萬維減少到三個字母,一個向量,一個數字,它是泛化的。你可以有不同種類的貓,你可以有貓的前面和後面。你看著這個東西,你說,難以置信。你的意思是任何貓?是的,任何貓。它能夠識別所有這些貓。我們意識到它是如何做到的,有系統地,結構性地,它是可擴展的。你可以做得有多大?嗯,你想做多大就做多大。所以我們想像這是一種全新的編寫軟體的方式。今天,如你所知,你可以輸入單字C,A,T,出來的是一隻貓。它走了另一條路。我對嗎?難以置信。怎麼可能?就是這樣。怎麼可能你拿了三個字母,卻從中產生了一百萬像素,而且它有意義。那正是奇蹟。
而在這裡,就在十年後,我們識別文本,我們識別圖像,我們識別視頻和聲音,我們不僅識別它們,我們理解它們的含義。這就是為什麼我可以和你聊天的原因。它可以為你總結。它理解文本。它不僅識別英語,它理解英語。它不僅識別像素,它理解像素。你甚至可以在兩種模態之間進行條件設定。你可以用語言來條件圖像,並產生各種有趣的事情。如果你能理解這些東西,你還能理解你數位化的其他東西嗎?我們之所以從文字和圖像開始,是因為我們數位化了這些東西。但是我們還數位化了什麼?事實證明,我們數位化了很多。蛋白質、基因和腦波。只要你能數位化的東西,只要它們的結構,我們可能就能從中學到一些模式。如果我們能從中學到模式,我們可能就能理解它的意義。如果我們能理解它的意義,我們可能就能生成它。所以,生成性AI革命就在這裡。
那我們還能生成什麼呢?我們還能學到什麼?我們想學的其中一件事是氣候。我們想學極端天氣。我們想學習如何預測未來天氣,以足夠高的分辨率在區域尺度上,這樣我們才能在危險來臨之前讓人們遠離危險。
極端天氣造成了世界1500億美元的損失,當然不只這個數字。而且它不是均勻分佈的。1500億美元集中在世界上某些地區,當然,對世界上某些人來說。我們需要適應,我們需要知道即將發生什麼。所以我們正在創建Earth 2,一個用於預測天氣的地球數位孿生。我們發明了一個非凡的發明,叫做Core Diff,使用生成性AI以極高分辨率預測天氣的能力。讓我們來看看。
隨著地球氣候的變化,AI驅動的天氣預測使我們能夠更準確地預測和追蹤像2021年在台灣及其周邊地區造成廣泛破壞的超級颱風Chanthu這樣的嚴重風暴。目前的AI預測模型可以準確預測風暴的路徑,但它們的分辨率限制在25公里,可能會錯過重要的細節。NVIDIA的Core Diff是一個革命性的新生成性AI模型,它在高解析度雷達、同化WARF天氣預測和ERA5再分析資料上進行了訓練。使用Core Diff,像Chanthu這樣的極端事件可以從25公里的分辨率超分辨率到2公里,速度是傳統天氣模型的1000倍,能源效率是傳統天氣模型的3000倍。透過結合NVIDIA的天氣預測模型Forecast Net和像Core Diff這樣的生成性AI模型的速度和準確性,我們可以探索數百甚至數千公里尺度的區域天氣預測,以提供最準確、最糟糕和最可能的風暴影響的清晰畫面。這些豐富的資訊可以幫助減少生命和財產的損失。今天,Core Diff針對台灣進行了最佳化,但很快,生成性超採樣將成為NVIDIA Earth 2推理服務的一部分,為全球許多地區提供服務。
天氣公司必須信任全球天氣預測的來源。我們正在共同努力加速他們的天氣模擬。首先是原則基礎的模擬。然而,他們也將要整合Earth 2和Core Diff,這樣他們就可以幫助企業和國家進行區域高解析度天氣預測。所以如果你有一些天氣預測,你想知道的話,可以聯絡天氣公司。非常令人興奮的工作。
視訊醫療保健,這是我們15年前開始的。我們對此感到非常興奮。無論是醫學影像、基因定序或計算化學。很可能NVIDIA是背後的運算。我們在這個領域做了這麼多工作。今天,我們宣布我們將要做一些非常酷的事情。
想像所有這些用於生成圖像和音頻的AI模型,但不是圖像和音頻,因為它理解圖像和音頻,所有我們已經完成的基因和蛋白質的數位化,這些數位化能力現在透過機器學習傳遞,使我們理解生命語言,理解生命語言的能力。當然,我們第一次看到它的證據是在alpha fold中。這真的是一個非常非凡的事情,在幾十年的痛苦工作後,世界只使用冷凍電子顯微鏡或晶體X射線晶體學等不同技術,費力地重建了蛋白質,200,000個,只用了不到一年的時間,Alpha Fold就重建了2億個蛋白質,基本上是每個被定序的生物。這完全是革命性的。嗯,這些模型對於人們來說非常難以使用。所以我們要做的是,我們將為全世界的研究人員建構它們。而且不會只有一個。還會有我們創建的許多其他模型。所以讓我向你們展示我們將要做什麼。
新藥物的虛擬篩選是一個計算上難以解決的問題。現有技術只能掃描數十億種化合物,並且需要在數千個標準計算節點上花費數天時間來識別新的藥物候選者。NVIDIA Bio Nemo和Nims透過使用Nims進行蛋白質結構預測,結合Alpha Fold分子生成和Mole MIM對接,以及Diff DOC,我們現在可以在幾分鐘內產生和篩選候選分子。Malmim可以連接到自訂應用程序,以引導生成過程,迭代優化所需屬性。這些應用程式可以使用Bio Nemo微服務定義,也可以從頭開始建構。在這裡,一個基於物理的模擬優化了分子與目標蛋白質結合的能力,同時優化了其他有利的分子屬性。同時,malmim生成高品質、藥物樣的分子,這些分子能夠與目標結合並且可以合成,從而提高了開發成功藥物的機率。更快。Bio Nemo正在啟用藥物發現的新範式,Nims提供按需微服務,可以組合構建強大的藥物發現工作流程,如De Novo蛋白質設計或引導分子生成用於虛擬篩選。Bio nemo Nims正在幫助研究人員和開發人員重新發明計算藥物設計。
NVIDIA,Momam,Corediff,還有許多其他的模型,電腦視覺模型,機器人模型,甚至一些非常棒的開源語言模型。這些模型是開創性的。然而,對於公司來說很難使用。你將如何使用它?你將如何將其引入你的公司並整合到你的工作流程中?你將如何打包它並運行它?還記得我之前說過的推理是一個非凡的計算問題嗎?你將如何為每一個模型進行最佳化,並組裝必要的計算堆疊,以便你可以在你的公司運行這些模型。所以我們有一個偉大的想法。我們將發明一種新的接收和操作軟體的方式。這個軟體基本上在一個數位盒子裡,我們稱之為容器,我們稱之為NVIDIA Inference Micro Service,簡稱Nim。我想向你解釋一下它是什麼。一個Nim。它是一個預先訓練的模型。所以它非常聰明。它被打包並優化,可以在NVIDIA的安裝基礎上運行,這個基礎非常龐大。裡面的東西令人難以置信。你有所有這些預訓練的穩定的VR開源模型。它們可能是開源的,可能是我們的合作夥伴之一,可能是我們自己創建的,就像視訊時刻一樣,它被打包,包括所有的依賴項。
所以CUDA,正確版本的cuDnn,tensor RTLM,分佈在多個GPU上,嘗試一個推理伺服器,所有這些都完全打包在一起。它針對你是否擁有單一GPU、多個GPU或多個節點的GPU進行了最佳化,並且透過API連接,這些API非常簡單易用。
現在想像一下AI API是什麼,一個你只需要與之對話的介面。所以這個軟體在未來會有一個非常簡單的API,那個API叫做人類。這些軟體包,令人難以置信的軟體體,將被優化和打包。我們將把它放在網站上。你可以下載它,你可以帶走它,你可以在任何雲端中運行它,你可以在自己的資料中心運行它,如果它適合的話,你可以在工作站上運行它。你所要做的就是來到AI NVIDIA.com。我們稱之為NVIDIA Inference Microservice,但在公司內部,我們都稱之為Nims。
想像一下,你知道,總有一天會有一個這樣的聊天機器人,這些聊天機器人將只是在一個m中,你將組裝一堆聊天機器人。這就是軟體未來將被建構的方式。
我們如何在未來建立軟體?你不太可能從頭開始編寫它,或者編寫一大堆Python程式碼或類似的東西。你很可能會組裝一個AI團隊。可能有一個超級AI,你使用它給你的任務,它會將其分解成一個執行計劃。
這個執行計劃的一部分可能會交給另一個Nim,那個Nim可能會理解SAP。SAP的語言是ABAP。它可能理解Service Now並從他們的平台上檢索一些資訊。然後它將把那個結果交給另一個Nim,那個Nim去做一些計算。也許是一個最佳化軟體,一個組合最佳化演算法。也許是,你知道,一些,只是一些基本的計算器。也許是pandas做一些數值分析。然後它帶著答案回來,並且它得到了每個人的答案的組合,因為它被呈現了正確的答案應該是什麼樣子。它知道正確的答案是什麼,並且它會呈現給你。
我們可以每天在,你知道,每小時的頂部得到一個報告,它與建立計劃或一些預測或一些客戶警報或一些錯誤資料庫或無論它是什麼有關。我們可以使用所有這些名字來組裝它。因為這些NIM已經被打包並準備好在你的系統上工作,只要你的資料中心或雲端中有NVIDIA GPU,這些NIMs,它們將作為一個團隊一起工作,做一些驚人的事情。所以我們決定這是一個如此偉大的想法,我們要去做。所以NVIDIA在公司各處都在運作MEMS。我們在各處創建聊天機器人。最重要的聊天機器人之一當然是晶片設計師聊天機器人。你可能不會感到驚訝。我們非常關心製造晶片。所以我們想要建造聊天機器人,AI副駕駛與我們的工程師共同設計。所以我們是這樣做的。所以我們得到了一個Lama 2。這是一個70B。你知道,它被打包在一個Nam。我們問它,你知道,CTL是什麼。結果發現CTL是一個內部程序,有一個內部專有語言,但它認為CTL是組合時序邏輯。所以它描述了CTL的常規知識,但這對我們來說並不是很有用。所以我們給了它一堆新的例子。你知道,這和員工入職沒有什麼不同。我們說,謝謝你的答案。這完全是錯誤的。然後我們向他們展示了,這就是NVIDIA的CTL。好的。所以這就是NVIDIA的CTL。正如你所看到的,CTL代表計算追蹤庫,這是有意義的。你知道,我們一直在追蹤計算週期。我寫了這個程式。這很了不起嗎?
所以我們的晶片設計師的生產力可以提高。這是你可以用Nim做的第一件事。你可以定制它。我們有一個叫做Nemo Microservice的服務,可以幫你策劃數據,準備數據,這樣你就可以教這個AI。你可以微調它們,然後你可以設定邊界。你甚至可以評估答案,評估其性能與其他例子相比。所以這叫做Nemo Microservice。
現在,這裡出現的是三個元素,三個支柱,我們正在做的事情。第一個支柱當然是發明AI模型的技術,運行AI模型,並為你打包。首先是擁有AI技術。第二是幫你修改。第三是為你微調的基礎建設。如果你喜歡部署它,你可以在我們的基礎架構上部署它,叫做DGX Cloud,或者你可以在本地部署。一旦你開發了它,它就是你的,你可以把它帶到任何地方。所以實際上我們是一個AI鑄造廠。我們將為你和產業做AI,就像TSMC為我們製造晶片一樣。所以我們帶著我們的大想法去找TSMC,他們製造了它,我們就帶著它走了。所以這裡完全一樣,AI鑄造廠。這三個支柱是Nims,Nemo微服務和DGX Cloud。
你也可以教Nim理解你的專有資訊。記住,在我們公司內部,我們的資料大部分不在雲端。它在我們的公司內部。它一直在那裡被使用。而且天哪,它基本上是模糊的智能。我們想拿走這些數據,學習它的含義,就像我們學習幾乎任何我們剛才談到的其他東西的含義一樣,學習它的含義,然後將這些知識重新索引到一種叫做向量數據庫的新類型的資料庫中。所以你本質上是拿走結構化資料或非結構化數據,你學習它的意義,你編碼這個意義。
所以現在這變成了一個AI資料庫。在未來,一旦你創建了它,你可以和它對話。所以讓我給你一個例子。假設你創建了一個,你有一堆多模態數據,一個很好的例子是PDF。所以你拿走PDF,你拿走你所有的pdf,所有的,哦,你最喜歡的,你知道,對你公司來說至關重要的東西,你可以編碼它,就像我們編碼貓的像素一樣。它變成了向量,現在儲存在你的向量資料庫中。它變成了你公司的專有資訊。一旦你有了這些專有訊息,你可以和它聊天。它是一個智慧資料庫,所以你只是和資料聊天。跟你聊天有多愉快?你知道,對於我們的軟體團隊來說,他們只是和錯誤資料庫聊天,你知道,昨晚有多少錯誤?我們有沒有進展?然後和你完成和這個錯誤資料庫的對話後,你需要治療。所以,我們還有另一個聊天機器人給你。你可以做。
好的,所以我們稱之為Nemo檢索器。之所以這樣稱呼,是因為最終它的工作就是盡快檢索資訊。你只是和它聊天,嘿,檢索這個資訊給我。它去了,它把它帶回來給你。你是說這個意思嗎?你去了,是的,完美。好的。所以這就是所謂的Nemo檢索器。Nemo服務幫助你創建所有這些東西。我們有所有這些不同的NIMs。我們甚至有數位人類的名稱。我是Rachel。
你的AI護理經理。
好的,所以這是一個非常短的視頻,但有很多視頻要向你展示。我想是因為有很多其他的演示要向你展示,所以我不得不縮短這個視頻。但這是Diana。她是個數位人類Nim。你只是和她交談,她在這個案例中連接到了Hippocratic AI的醫療保健大型語言模型。這真的很神奇。她對醫療保健的事情非常了解,你知道的。所以經過我的Dwight,我的軟體工程副總裁與錯誤資料庫聊天之後,你過來和Diane聊聊。Diane完全由AI動畫製作,她是一個數位人類。
有很多公司想要建造。他們坐擁金礦。企業IT產業坐擁金礦。這是一座金礦,因為他們對工作方式有著深刻的理解。他們擁有多年來創造的所有這些驚人的工具,他們坐擁大量數據。如果他們能將這些金礦轉化為副駕駛,這些副駕駛可以幫助我們做些什麼。所以幾乎每個IT特許經營權,幾乎每個擁有人們使用的有價值工具的IT平台,都坐擁副駕駛和聊天機器人的金礦。
現在運行著世界上85%的財富500強公司的人力和客戶服務運營的Service Now。他們正在使用NVIDIA AI Foundry建立Service Now Assist虛擬助理。
Cohecity支持著世界上的數據。他們坐擁金礦,數百艾位元組的數據,超過10,000家公司,Video AI Foundry正在與他們合作,幫助他們建立Gaia生成性AI代理。
Snowflake是一家在雲端儲存世界數位倉庫的公司,每天為10,000家企業客戶處理超過30億次查詢。Snowflake正在與NVIDIA AI Foundry合作,使用NVIDIA Nemo和Nims建造副駕駛。
世界上近一半的檔案儲存在本地,使用NETA和Video AI。AI Foundry正在幫助他們建立聊天機器人和副駕駛,就像那些向量資料庫和檢索器一樣,使用NVIDIA、Nemo和Nims。我們與Dell有著極佳的合作關係。每個正在建造這些聊天機器人和生成性AI的人,當你準備好運行它時,你將需要一個AI工廠。沒有人比Dell更擅長為企業建構大規模的端到端系統。所以任何人,任何公司,每家公司在建造AI工廠時都需要考慮這一點。
黃仁勳介紹AI機器人技術
好的,讓我們來談談機器人技術的下一個浪潮,AI機器人技術的下一個浪潮。到目前為止,我們談論的所有AI都是一台電腦。數據以數位文字的形式進入一台電腦。AI透過閱讀大量語言來模仿我們,預測下一個單字。它透過研究所有模式和所有其他先前的例子來模仿你。當然,它必須理解上下文等等。但一旦它理解了上下文,它本質上是在模仿你。我們將所有資料放入一個系統,如DGX,我們將其壓縮成一個大型語言模型。數萬億的參數變成了數十億。數萬億的Token變成了數十億的參數。這些數十億的參數變成了你的AI。
好吧,為了進入AI的下一個浪潮,即AI理解物理世界的浪潮,我們需要三台電腦。第一台計算機仍然是相同的計算機。它是那台AI計算機,現在將觀看視頻,也許它正在進行合成數據生成。也許會有很多人類的例子,就像我們有人類文本形式的例子一樣,我們將有人類在動作形式上的例子。AI將觀察我們,理解發生了什麼,並嘗試將其適應為自己在上下文中的行動。因為它可以用這些基礎模型進行泛化,所以也許這些機器人也可以在物理世界中相當泛化地執行任務。所以我剛剛用非常簡單的術語描述了大型語言模型本質上發生的事情,除了ChatGPT時刻,機器人技術的時刻可能就在轉角處。所以我們已經為機器人技術建構了端到端系統一段時間了。
我為這項工作感到非常自豪。我們有AI系統,DGX。我們有低階系統,稱為AGX,用於自主系統,這是世界上第一個機器人處理器。當我們第一次建造這個東西時,人們問,你們在建造什麼?它是一個SoC。它是一個晶片。它旨在非常低功耗,但它旨在高速感測器處理和AI。所以如果你想在汽車中運行變換器,或者你想在任何移動的東西中運行變換器,我們有完美的電腦給你。它叫做Jetson。所以頂部的DGX用來訓練AI,Jetson是自主處理器。在中間,我們需要另一台計算機。而大型語言模型必須從你提供的例子中受益,然後進行人類回饋的強化學習。那麼機器人的強化學習人類回饋是什麼呢?好吧,它是強化學習物理回饋。這就是你如何讓機器人對齊。這就是你讓機器人知道,當它學習這些動作能力和操縱能力時,它將適當地適應物理定律。所以我們需要一個代表世界數位的類比引擎,讓機器人有一個健身房去學習如何成為機器人。我們稱之為虛擬世界Omniverse。運行Omniverse的電腦叫做OVX。而OVX計算機本身,託管在Azure雲端。
好的,所以基本上我們建造了這三樣東西,這三套系統。在它們之上,我們為每一個都有演算法。現在我要為你們展示一個超級例子,展示AI和Omniverse如何一起工作。我要給你們看的例子是瘋狂的,但它將非常接近明天。這是一個機器人建築。這個機器人建築叫做倉庫。在機器人建築裡面有一些自主系統。一些自主系統將被稱為人類,一些自主系統將被稱為叉車。這些自主系統將互相交互,當然,是自動的。它將由這個倉庫監督,以確保每個人都安全。
這個倉庫本質上是個空中交通管制員。每當它看到某件事發生時,它會重新定向交通並給出新的路徑點,給機器人和人們。他們將確切地知道該做什麼。
這個倉庫,這個建築,你也可以和它交談,當然,你可以問它。嘿,你知道,SAP中心,你今天感覺怎麼樣?所以你可以問倉庫同樣的問題。基本上,我剛剛描述的系統將擁有Omniverse Cloud,它託管著虛擬模擬和在DGX Cloud上運行的AI,所有這些都在即時運行。讓我們來看看。
重工業的未來始於數位孿生。AI代理商幫助機器人、工人和基礎設施在複雜的工業空間中導航不可預測的事件,將在精密的數位孿生中首次建造和評估。這個100,000平方英尺倉庫的Omniverse數位孿生作為一個模擬環境運行,整合了數位工人、AMRS運行NVIDIA Isaac接收器堆疊,來自100個模擬天花板攝影機的整個倉庫的集中活動地圖,使用NVIDIA Metropolis和Amr路線規劃與NVIDIA QOP軟體,在這個物理精確的模擬環境中進行的AI代理的循環測試使我們能夠評估和完善系統如何適應現實世界的不可預測性。在這裡,沿著這個AMR計畫的路徑發生了一起事件,阻擋了它的去路。NVIDIA Metropolis更新並發送了一個即時佔用圖到QOP,在那裡計算了一個新的最佳路徑。Amr能夠看到角落周圍,並利用生成性AI驅動的Metropolis Vision基礎模型來提高其任務效率。運營商甚至可以使用自然語言提問。視覺模型理解微妙的活動,並可以提供立即的洞察力以改善操作。所有的感測器數據都是在模擬中創建的,並傳遞給即時運行的AI,作為NVIDIA推理微服務或MEMS。當AI準備在實體孿生,即真實的倉庫中部署時,我們將Metropolis和Isaac Nimms連接到真實感測器,並具有持續改進數位孿生和AI模型的能力。
讓我們來看看這將如何運作。我們與西門子有一個偉大的合作關係。西門子是世界上最大的工業工程和營運平台。你已經看到了這麼多不同的公司在工業領域。重工業是它最偉大的最後邊疆之一,我們終於擁有了必要的技術來真正產生影響。西門子正在建構工業元宇宙。今天,我們宣布西門子正在將他們的明珠加速器連接到NVIDIA Omniverse。讓我們來看看。
CMS技術每天都在為每個人改變。我們的領先產品生命週期管理軟體Tim Sendax,來自西門子加速器平台,每天被我們的客戶用來大規模開發和交付產品。
現在我們正在透過將NBDII和Omniverse技術整合到Team Center X中,將真實和附加世界帶得更近。Omniverse API使資料互通性和基於物理的渲染能夠應用於工業規模的設計和製造專案。我們的客戶,HD Hyundai,是永續船舶製造的市場領導者,經常建造包含超過700萬個離散零件的氨和氫動力船。透過Omniverse API,Tim Center X讓像HD Hyundai這樣的公司能夠互動式地統一和視覺化這些龐大的工程資料集,並整合生成性AI來產生3D物件或HRI背景,以在上下文中查看他們的專案。結果是一個超直觀的、基於物理的數位孿生,消除了浪費和錯誤,節省了大量的成本和時間。我們正在為協作而建造這個,無論是跨過更多的西門子加速器工具,如西門子Annix或Star CCM+,還是跨過團隊在他們最喜歡的設備上一起工作。這只是一個開始。與NVIDIA合作,我們將在西門子加速器產品組合中帶來加速運算、生成性AI和Omniverse整合。
專業的配音員剛好是我的好朋友,Roland Bush,他剛好是西門子的CEO。
一旦你將Omniverse連接到你的工作流程中,從設計到工程,再到製造計劃,一直到數位孿生運營,一旦你將一切連接在一起,你會驚訝地發現你可以獲得多少生產力。突然之間,每個人都在同一個基本事實的基礎上運作。你不需要交換數據和轉換數據,犯錯。每個人都在同一個基本事實的基礎上工作,從設計部門到藝術部門,建築部門,一直到工程部門,甚至是市場部門。讓我們來看看日產如何將Omniverse整合到他們的工作流程中,這一切都是因為所有這些美妙的工具和我們正在合作的開發者。來看看。
那不是動畫。那是Omniverse。今天,我們宣布Omniverse Cloud串流到Vision Pro,而且非常奇怪,你可以走進虛擬的門。當我從那輛車裡出來時,每個人都這樣做。這真的非常了不起。Vision Pro連接到Omniverse門戶,讓你進入Omniverse。因為所有這些CAD工具和所有這些不同的設計工具現在都與Omniverse整合和連接,你可以有這樣的工作流程。真的不可思議。
讓我們來談談機器人技術。所有會動的東西都將是機器人。這一點毫無疑問。這更安全,更方便。最大的行業之一將是汽車行業。我們從電腦系統開始建立了一個機器人堆疊,就像我提到的,包括自動駕駛汽車,包括今年年底或明年年初將在賓士和隨後不久的捷豹路虎上出貨的自動駕駛雲端應用程式。所以這些自主機器人系統是軟體定義的。它們需要大量的工作,具有電腦視覺,顯然有人工智慧控制和規劃,所有種類非常複雜的技術,需要多年時間來完善。我們正在建立整個堆疊。然而,我們為整個汽車行業開放了我們的整個堆疊。這就是我們在每一個行業中的工作方式。我們盡力建造盡可能多的東西,以便
我們理解它。但然後我們將其開放,以便每個人都可以訪問它,無論你是否想要購買我們的計算機,這是世界上唯一功能齊全、安全的自動駕駛汽車質量計算機,或者上面的操作系統,或者當然,我們的資料中心,它基本上在世界上每家自動駕駛汽車公司。無論如何,我們都很高興。
今天,我們宣布世界上最大的電動車公司比亞迪(BYD)正在採用我們的下一代產品。它被稱為Thor。Thor是為變換器引擎設計的。我們的下一代自動駕駛汽車電腦Thor將被比亞迪使用。
你可能不知道這個事實,我們有超過一百萬的機器人開發者。我們創造了Jetson,這台機器人計算機。我們為此感到非常自豪。在它上面運行的軟體量是驚人的,但我們之所以能夠做到這一點,是因為它是100%程式碼相容的。我們公司所做的一切都是為了我們的開發者服務。透過我們能夠維護這個豐富的生態系統,並使其與你們從我們這裡訪問的一切都兼容,我們可以將所有這些令人難以置信的能力帶到這個我們稱之為Jetson的小計算機上,一個機器人電腦. 我們今天也宣布了一個非常先進的新SDK。我們稱之為Isaac Perceptor。
今天的大多數機器人都是預先編程的。它們要么跟隨地面上的軌道,要么是數字軌道,或者它們會跟隨April標籤。但在將來,它們將具有感知能力。你希望這樣是因為這樣你可以輕鬆地編程它。你說,我想讓你從A點到B點,它會找出到達那裡的路線。所以透過只編程航點,整個路線可以是自適應的,整個環境可以被重新編程,就像我在一開始展示的倉庫一樣。如果你使用預先編程的AGV,如果那些箱子掉下來,它們就會全部堵塞在那裡,等待某人清理。
現在有了Isaac Perceptor,我們有了令人難以置信的最先進視覺里程計、3D重建,除了3D重建,還有深度感知。之所以需要這樣做,是為了讓你可以用兩種模式來監控世界上正在發生的事情。Isaac Perceptor,今天使用最多的機器人是製造手臂。它們也是預先編程的,電腦視覺演算法、AI演算法、控制和路徑規劃演算法都是幾何感知的,計算上非常密集。我們已經使這些CUDA加速。所以我們有世界上第一個CUDA加速的運動規劃器,它是幾何感知的。你把東西放在它前面,它會提出一個新的計劃,並繞過它。它具有出色的3D物體姿態估計的感知能力。不只是2D中的姿態,而是3D中的姿態。所以它必須想像周圍是什麼,以及如何最好地抓住它。所以基礎姿態、握持基礎和關節演算法現在都可以使用。我們稱之為Isaac Manipulator。它們也只在VDS計算機上運作。
我們開始做一些真正偉大的工作,在下一代機器人技術中,很可能是類人機器人。我們現在擁有了必要的技術,正如我之前所描述的,下一代機器人技術很可能是一種通用的人類機器人。我們知道這一點,因為我們有更多的模仿訓練資料可以提供給機器人,因為我們是以非常相似的方式建構的。很可能類人機器人在我們的世界中會更加有用,因為我們創造了一個我們可以互相操作並且很好工作的世界。我們設置的工作站、製造和物流,都是為人類設計的。所以這些類人機器人在部署時可能會更有效率,而我們正在創建的,就像我們對其他機器人一樣,從基礎模型開始,學習觀看影片、人類影像、人類範例。它可以是視訊形式的,也可以是虛擬實境形式的。然後我們創建了一個名為Isaac Reinforcement Learning Gym的健身房,這個健身房讓類人機器人學習如何適應物理世界。然後是一個令人難以置信的計算機,這個計算機將進入一個機器人或類人機器人,稱為Thor。它被設計為變換器引擎。我們將其中的幾個組合成一個影片。這是你真的會喜歡的東西。來看看。
NVIDIA的靈魂。電腦圖形、物理、人工智慧的交會點,都在這一刻顯現出來。那個專案的名稱,通用機器人。0,0,3。我知道。非常好。好吧,我認為我們有一些特別的嘉賓。我們有嗎?
嘿,夥計們。所以我了解到你們是由Jetson驅動的。它們是由Jetsons驅動的,小型Jetson機器人計算機。在裡面,它們在Isaacson中學會走路。女士們,先生們,這是橙色和著名的綠色。它們是迪士尼的BDX機器人。令人驚嘆的迪士尼研究。來吧,夥計們。讓我們結束。讓我們走。你們要去哪裡?我坐在這裡。別怕。過來。綠色。快點。你在說什麼?不,現在不是吃飯的時間。
(Jetson機器人)
我會的。我會給你們一個小吃的。讓我快速結束。
首先,一場新的工業革命。每個資料中心都應該是加速的。未來幾年,價值1兆美元的安裝資料中心將現代化。第二,因為我們帶來的運算能力,一種新的軟體開發方式出現了,生成性AI,它將創造新的基礎設施,專門用於做一件事,而不是為多用戶資料中心,而是為AI生成器。這些AI生成器將創造非常有價值的軟體,這是一場新的工業革命。
第二,這場革命的計算機,這一代的計算機,生成性AI,數萬億參數,Blackwell,令人瘋狂的計算機和計算能力。第三,我正在嘗試集中註意力。做得好。第三,新的電腦創造了新的軟體類型。新的軟體類型應該以新的方式分發,這樣它可以一方面成為雲端中的一個端點,易於使用,但仍然允許你帶走它,因為你的智慧應該被打包成一種方式,允許你帶走它。我們稱它們為NIMs。
第三,這些NIMs將幫助你創建未來的新類型應用程序,不是完全從頭開始編寫的應用程序,而是你將整合它們。就像團隊創建這些應用程式一樣。我們有一個極好的能力,介於Nims(AI技術)、Nemo(工具)和DGX Cloud(基礎設施)之間,我們的AI Foundry將幫助你創建專有應用程序,專有聊天機器人。
最後,未來所有會動的東西都將是機器人。你不會是唯一的一個。這些機器人系統,無論是類人AMRS、自動駕駛汽車、堆高機、操縱臂,它們都需要一件事,巨大的球場、倉庫、工廠。可以有機器人工廠,協調工廠的工廠,製造汽車的機器人生產線。這些系統都需要一件事。它們需要一個平台,一個數位平台,一個數位孿生平台。我們稱之為Omniverse,機器人世界的作業系統。
這些是我們今天談論的五件事。當我們談論GPU時,NVIDIA是什麼樣子?當我想到GPU時,我有一幅非常不同的圖像。首先,我看到的是一堆軟體堆疊和類似的東西。其次,我看到的是我們今天向你們宣告的。這是Blackwell,這是平台。
令人驚嘆的處理器,MV Link交換機,網路系統。系統設計是一個奇蹟。這就是Blackwell,這就是在我腦海中GPU的樣子。
謝謝你。祝大家有個愉快的GTC。謝謝大家的到來。