黃仁勳COMPUTEX2024演講1.6萬字全程實錄:我們正在經歷計算通貨膨脹
英偉達CEO 黃仁勳在台北ComputeX 2024 大會上展示了英偉達在加速運算和生成式AI領域的最新成果,也描繪了未來運算和機器人技術的發展藍圖。
這場演講涵蓋了從AI 基礎技術到未來機器人和生成式AI 在各個行業的應用,全面展示了英偉達在推動計算技術變革方面的卓越成就。
黃仁勳表示,英偉達位於電腦圖形、模擬和AI 的交匯處,這是英偉達的靈魂。今天展示給我們的一切都是模擬的,它是數學、科學、電腦科學、令人驚嘆的電腦架構的結合。這些都不是動畫,而是自製的,英偉達把它全部融入了Omniverse 虛擬世界。
▍加速計算與AI
黃仁勳表示,我們所看到的一切的基礎是兩項基本技術,加速計算和在Omniverse 內部運行的AI,這兩股計算的基本力量,將重新塑造計算機行業。計算機行業已有60 年的歷史。在很多方面,今天所做的一切都是在1964 年黃仁勳出生後一年發明的。
IBM System 360 引進了中央處理單元、通用運算、透過作業系統實現硬體和軟體的分離、多工處理、IO子系統、DMA以及今天使用的各種技術。架構相容性、向後相容性、系列相容性,所有今天對電腦了解的東西,大部分在1964 年就已經描述出來了。當然,PC 革命使計算民主化,把它放在了每個人的手中和家中。
2007 年,iPhone 引進了行動運算,把電腦放進了我們的口袋。從那時起,一切都在連接並隨時運行透過行動雲端。這60 年來,我們只見證了兩三次,確實不多,其實就兩三次,主要的技術變革,計算的兩三次構造轉變,而我們即將再次見證這一切的發生。
有兩件基本的事情正在發生。首先是處理器,也就是電腦產業運作的引擎,中央處理單元的效能提升顯著放緩。然而,我們需要進行的計算量仍然在迅速增長,呈指數級增長。如果處理需求,數據需要處理的量繼續指數級增長但性能沒有,計算通貨膨脹將會發生。事實上,現在就看到了這一點。全球資料中心所使用的電力量正在大幅成長。計算成本也在成長。我們正在經歷計算通貨膨脹。
當然,這種情況不能繼續下去。資料量將繼續以指數級增長,而CPU 效能提升將永遠不會恢復。我們有更好的方法。近二十年來,英偉達一直在研究加速運算。 CUDA 增強了CPU,卸載並加速了專用處理器可以更好完成的工作。事實上,性能非常出色,現在很明顯,隨著CPU 性能提昇放緩並最終顯著停止,應該會加速一切。
黃仁勳預測,所有需要大量處理的應用程式都會被加速,當然每個資料中心在不久的將來都會被加速。現在加速計算是非常合理的。如果你看看一個應用程序,這裡100t 代表100 單位時間,它可能是100秒,也可能是100 小時。在很多情況下,如你所知,現在正在研究運行100 天的AI 應用程式。
1T 程式碼是指需要順序處理的程式碼,其中單執行緒CPU是非常關鍵的。作業系統控制邏輯非常重要,需要一條指令接著一條指令地執行。然而,有許多演算法,例如電腦圖形處理,可以完全並行操作。電腦圖形處理、影像處理、實體模擬、組合最佳化、圖處理、資料庫處理,當然還有深度學習中非常著名的線性代數,這些演算法都非常適合透過平行處理來加速。
因此,發明了一種架構,透過在CPU 上添加GPU 來實現。專用處理器可以將耗時很長的任務加速到極快的速度。因為這兩個處理器可以並肩工作,它們都是自主的,獨立的,可以將原本需要100 個時間單位的任務加速到1 個時間單位,速度的提升是難以置信的,效果非常顯著,速度提升了100 倍,但功耗只增加了大約三倍,成本只增加了約50%。在PC 行業一直這樣做,英偉達在1000 美元PC 上加一個500 美元GeForce GPU,性能會大幅提升。英偉達在資料中心也這樣做,一個價值十億美元的資料中心,加上5 億美元的GPU,突然間它就變成了一個AI 工廠,這種情況正在全球各地發生。
節省的成本非常驚人。每花一美元就能獲得60 倍的效能提升,速度提升了100倍,而耗電量只增加了三倍,成本只增加了1.5倍。這種節省是難以置信的。節省的成本可以用美元來衡量。
很明顯,許多公司在雲端處理資料上花費了數億美元。如果這些過程被加速,不難想像可以節省數億美元。這是因為在通用計算上已經經歷了很長時間的通貨膨脹。
現在終於決定加速計算,有大量被捕獲的損失可以現在回收,許多被保留的浪費可以從系統中釋放出來。這將轉化為金錢的節省和能源的節省,這也是為什麼黃仁勳常說’買得越多,省得越多’。
黃仁勳也表示,加速運算確實帶來了非凡的成果,但它並不容易。為什麼它能省這麼多錢,但這麼長時間人們卻沒有這樣做呢?原因是因為這非常難。沒有一種軟體可以透過C編譯器運行,突然間應用程式就快了100倍。這甚至不合邏輯。如果可以做到這一點,他們早就改造CPU了。
事實上,必須重寫軟體,這是最困難的部分。軟體必須完全重寫,以便能夠重新表達在CPU 上編寫的演算法,使其能夠被加速、卸載並行運行。這種計算機科學的練習極為困難。
黃仁勳表示,在過去20 年裡,英偉達讓全世界變得更容易。當然,非常著名cuDNN,即處理神經網路的深度學習庫。英偉達有一個AI 物理庫,可以用於流體動力學和許多其他應用中,神經網路必須遵守物理定律。英偉達有一個叫Arial Ran 新的偉大庫,它是一個CUDA 加速5G 無線電,能夠像定義世界網路互聯網一樣定義和加速電信網路。加速的能力使我們能夠將所有的電信轉變為與雲端運算平台相同類型的平台。
cuLITHO 是一個運算光刻平台,能夠處理晶片製造中最運算密集的部分-製作遮罩。台積電正在使用cuLITHO 進行生產,節省了大量的能源和金錢。台積電的目標是加速他們的堆疊,以便為進一步的演算法和更深入、更窄的電晶體的計算做好準備。 Parabricks 是英偉達基因定序庫,它是世界上吞吐量最高的基因定序庫。 cuOpt是一個用於組合優化、路線規劃優化的令人難以置信的庫,用於解決旅行商問題,非常複雜。
科學家普遍認為需要量子電腦來解決這個問題。英偉達創造了一個在加速運算上運行的演算法,運行速度極快,創下了23項世界紀錄。 cuQuantum是一個量子電腦的模擬系統。如果你想設計一個量子計算機,你需要一個模擬器。如果你想設計量子演算法,你需要一個量子模擬器。如果量子計算機不存在,你要如何設計這些量子計算機,創建這些量子演算法呢?你使用今天世界上最快的計算機,當然就是NVIDIA CUDA。在上面,英偉達有一個模擬器,可以模擬量子電腦。它被全世界數十萬研究人員使用,並整合到所有領先的量子計算框架中,廣泛用於科學超級計算中心。
cuDF是一個令人難以置信的資料處理庫。數據處理消耗了今天雲端支出的絕大部分,所有這些都應該被加速。 cuDF加速了世界上使用的主要函式庫,例如Spark,許多公司可能都在使用Spark,Pandas,一個新的叫做Polars的函式庫,當然還有NetworkX,一個圖處理資料庫庫。這些只是一些例子,還有很多其他的。
黃仁勳表示,英偉達必須創建這些庫,以便讓生態系統能夠利用加速運算。如果英偉達沒有創建cuDNN,光有CUDA 是不可能讓全世界的深度學習科學家使用的,因為CUDA、TensorFlow 和PyTorch中使用的演算法之間的距離太遠了。這幾乎像是在沒有OpenGL 情況下做電腦圖形處理,或是沒有SQL 的情況下進行資料處理。這些特定領域的庫是英偉達的珍寶,總共有350個庫。正是這些庫使英偉達能夠打開如此多的市場。
上週,Google 宣佈在雲端加速Pandas,這是世界上最受歡迎的資料科學庫。你們中的許多人可能已經在使用Pandas,它被全球1000 萬名資料科學家使用,每月下載1.7 億次。它是資料科學家的電子表格。現在,只要點擊一下,你就可以在Google 雲端資料中心平台Colab 中使用由cuDF 加速Pandas,加速效果真的非常驚人。
當你將資料處理加速到如此快的速度時,演示確實不會花很長時間。現在CUDA 已經達到了人們所說的臨界點,但它甚至更好。 CUDA 現在已經實現了一個良性循環。
這種情況很少發生。如果你看看歷史上所有運算架構的平台。以微處理器CPU 為例,它已經存在了60 年,並且在這個層面上沒有改變。這種計算方式,加速運算已經存在,創建一個新平台極為困難,因為這是一個先有雞還是先有蛋的問題。
如果沒有開發人員使用你的平台,那當然也不會有使用者。但是如果沒有用戶,就沒有安裝基礎。如果沒有安裝基礎,開發人員就不會對它感興趣。開發人員希望為大型安裝基礎編寫軟體,但大型安裝基礎需要大量應用程式來吸引用戶創建安裝基礎。
這種先有雞還是先有蛋的問題很少被打破。而英偉達花了20 年的時間,一個領域的庫接著一個領域的庫,一個加速庫接著一個加速庫,現在有500 萬開發人員在全球範圍內使用英偉達的平台。
英偉達服務於每個行業,從醫療保健、金融服務、電腦產業、汽車產業,幾乎所有主要產業,幾乎所有科學領域,因為英偉達的架構有這麼多客戶,OEM 廠商和雲端服務供應商對建構英偉達的系統感興趣。像台灣這裡的系統製造商這樣的優秀系統製造商對構建英偉達的系統感興趣,這使得市場上有更多的系統可供選擇,這當然為我們創造了更大的機會,使我們能夠擴大規模,研發規模,從而進一步加速應用。
每次加速應用,計算成本就會下降。 100 倍加速轉化為97%、96%、98% 節省。因此,當我們從100 倍加速到200 倍加速,再到1000 倍加速時,計算的邊際成本持續下降。
英偉達相信,透過大幅降低運算成本,市場、開發人員、科學家、發明家將繼續發現越來越多的演算法,這些演算法消耗越來越多的運算資源,最終會發生質的飛躍,計算的邊際成本如此之低,以至於一種新的計算使用方式出現了。
事實上,這正是現在看到的情況。多年來,英偉達在過去10 年將某種特定演算法的邊際運算成本降低了百萬倍。因此,現在訓練包含整個網路資料的LLM 是非常合理和常識的,沒有人會懷疑。這個想法,即你可以創建一個能夠處理如此多數據的計算機來編寫自己的軟體。 AI 的出現是因為完全相信,如果讓計算變得越來越便宜,總是會有人找到一個偉大的用途。
如今,CUDA 已經實現了良性循環。安裝基礎正在成長,計算成本正在下降,這導致更多的開發人員提出更多的想法,從而推動更多的需求。現在我們正處於一個非常重要的起點。
黃仁勳接著提到了地球2的想法,將創建地球的數位孿生體,透過模擬地球,可以更好地預測未來,從而更好地避免災害,更好地理解氣候變遷的影響,以便更好地適應。
研究人員在2012 年發現了CUDA,那是英偉達與AI 第一次接觸,這是一個非常重要的日子。有幸與科學家合作,使深度學習成為可能。
AlexNet 取得了巨大的電腦視覺突破。但更重要的是,退一步去理解深度學習的背景、基礎以及其長期影響和潛力。英偉達意識到這項技術具有巨大的擴展潛力。一種幾十年前發明和發現的演算法,突然之間,因為更多的數據、更大的網路以及非常重要的更多計算資源,深度學習實現了人類演算法無法實現的成就。
現在想像一下,如果進一步擴展架構,更大的網路、更多的資料和更多的運算資源,可能會實現什麼。 2012年後,英偉達改變了GPU的架構,增加了Tensor 核心。英偉達發明了NVLink,那是10年前的事了,CUDA,然後是TensorRT、NCCL,收購了Mellanox、TensorRT-ML、Triton推理伺服器,所有這些都整合在一台全新的電腦上。沒有人理解,沒有人要求,沒有人理解它的意義。
事實上,黃仁勳確信沒有人想買它,英偉達在GTC 上宣布了它,OpenAI,一個位於舊金山的小公司,請求英偉達為他們提供一台。
2016 年,黃仁勳向OpenAI 交付了第一台DGX,世界上第一台AI 超級電腦。之後,繼續擴展,從一台AI 超級計算機,一台AI 設備,擴展到大型超級計算機,甚至更大。
到了2017年,世界發現Transformer,使能夠訓練大量數據,識別和學習長期序列模式。現在,英偉達可以訓練這些LLM,理解並在自然語言理解上取得突破。繼續前進,建造了更大的系統。
然後在2022 年11 月,使用成千上萬英偉達GPU和非常大的AI 超級電腦進行訓練,OpenAI 發布了ChatGPT,五天內用戶達到一百萬,兩個月內達到一億,成為歷史上增長最快的應用。
在ChatGPT 向世界展示之前,AI 一直是關於感知,自然語言理解、電腦視覺、語音辨識。這一切都是關於感知和檢測的。這是第一次,世界解決了生成式AI,逐一生成token,而這些token 是單字。當然,有些token 現在可以是圖像、圖表、表格、歌曲、單字、語音、影片。這些token 可以是任何你能理解其意義的東西,它們可以是化學品的token ,蛋白質的token ,基因的token 。你們之前在地球2 計畫中看到的,生成的是天氣的token 。
我們可以理解,我們可以學習物理。如果你能學習物理,你可以教AI 模型物理。 AI 模型可以學習物理的意義,然後可以產生物理。我們將其縮小到1 公里,不是透過過濾,而是生成。所以我們可以用這種方法產生幾乎任何有價值的token 。我們可以為汽車產生方向盤控制,為機器手臂產生動作。我們可以學習的一切,現在都可以生成。
▍AI 工廠
我們現在已經進入了生成式AI 時代。但是,真正重要的是,這台最初作為超級電腦的電腦現在已經演變成了一個資料中心,它只生成一種東西,那就是token ,它是一個AI 工廠,這家AI 工廠正在生成、創造和生產一種極具價值的新商品。
19 世紀90 年代末,尼古拉·特斯拉發明了交流發電機,而英偉達發明了AI 生成器。交流發電機生成電子,英偉達AI 生成器生成token,這兩種東西在市場上都有巨大的機會,在幾乎每個行業中都是完全可以替代的,這也是為什麼這是新的工業革命。
英偉達現在有一個新的工廠,為每個產業生產一種新的商品,這種商品具有非凡的價值。這種方法具有高度的可擴展性,而且這種方法的可重複性也非常高。
注意到每天都有這麼多不同的生成式AI 模型被發明出來。每個行業現在都在湧入。第一次,價值3 兆美元IT 產業,正在創造一些可以直接服務100 兆美元產業的東西。不再只是資訊儲存或資料處理的工具,而是為每個產業產生智慧的工廠。這將成為一個製造業產業,但不是電腦製造業,而是使用電腦進行製造業。
這在歷史上從未發生過。加速運算帶來了AI,帶來了生成式AI,現在帶來了工業革命。對產業的影響也非常顯著,可以為許多產業創造一種新商品,一種新的產品,稱之為token ,但對我們自己的產業的影響也非常深遠。
60 年來,運算的每一層都發生了變化,從CPU 通用運算到加速GPU 運算,電腦需要指令。現在電腦處理LLM,AI模型。而過去的計算模型是基於檢索的。幾乎每次你觸摸手機時,都會為你檢索一些預錄文本、圖像或視頻,並基於推薦系統重新組合併呈現給你。
黃仁勳表示,未來電腦將盡可能產生數據,只檢索必要的資訊。原因是產生的數據需要更少的能量去獲取資訊。產生的數據也更具上下文相關性。它將編碼知識,理解你。你不再是讓電腦取得資訊或文件,而是讓它直接回答你的問題。計算機將不再是我們使用的工具,而是生成技能,執行任務。
▍NIMs,英偉達推理微服務
而不是一個生產軟體的行業,這在90 年代初是一個革命性的想法。記得微軟創造的軟體包裝的想法革命化了PC 產業。沒有包裝軟體,我們會用PC 做什麼?它驅動了這個行業,現在英偉達有一個新的工廠,一個新的電腦。我們將在其上運行一種新的軟體,稱為NIMs,英偉達推理微服務。
NIM 在這個工廠內部運行,這個NIM 是一個預訓練模型,它是一個AI。這個AI 本身非常複雜,但運行AI 的計算堆疊是極為複雜的。當你使用ChatGPT 時,背後的堆疊是大量的軟體。背後的提示符號是大量的軟體,極其複雜,因為模型龐大,有數十億到數萬億的參數。它不僅在一台電腦上運行,而是在多台電腦上運行。它必須在多個GPU 之間分配工作負載,使用張量並行、管線並行、資料並行、各種並行性、專家並行性等各種並行性,在多個GPU 之間分配工作負載,盡可能快速地處理它。
因為如果你在一個工廠裡運行,你的吞吐量直接與收入相關。你的吞吐量直接與服務品質相關,你的吞吐量直接與能使用你服務的人數有關。
我們現在處於一個資料中心吞吐量利用率至關重要的世界。在過去這很重要,但沒有現在重要。在過去這很重要,但人們不測量它。今天,每一個參數都被測量,啟動時間、運行時間、利用率、吞吐量、空閒時間等,因為這是一個工廠。當某物是一個工廠時,其操作直接與公司的財務表現相關,這對大多數公司來說極其複雜。
所以英偉達做了什麼?英偉達創建了這個AI 盒子,這個容器裡裝滿了大量的軟體,這個容器內部包括CUDA、cuDNN、TensorRT、Triton 推理服務。它是雲端原生的,可以在Kubernetes 環境中自動擴展,它有管理服務和鉤子,可以監控你的AI。它有通用API,標準API,你可以與這個盒子聊天。下載這個NIM,可以與它聊天,只要你的電腦上有CUDA,它現在當然是無所不在的。它在每一個雲端中可用,來自每一個電腦製造商。它在數億台PC 上可用,所有的軟體都整合在一起,400 個依賴項都整合在一個裡面。
英偉達測試了這個NIM,每個預訓練模型都在整個安裝基礎上測試,所有不同版本的Pascal、Ampere 和Hopper,以及各種不同的版本。我甚至忘記了一些名字。令人難以置信的發明,這是我最喜歡的一個。
黃仁勳表示,英偉達有所有這些不同版本,無論是基於語言的還是基於視覺的,還是基於圖像的,或者用於醫療保健、數位生物學的版本,有數位人類的版本,只需訪問ai.nvidia. com。
黃仁勳還表示,今天英偉達剛剛在HuggingFace 上發布了完全優化的Llama3 NIM,它在那裡可以供你嘗試,你甚至可以帶走它。它是免費提供給你。你可以在雲端運行它,在任何雲端中運行。你可以下載這個容器,將其放入你自己的資料中心,並可以使其可用於你的客戶。
英偉達有各種不同領域的版本,物理學,有些用於語義檢索,稱為RAGs,視覺語言,各種不同的語言。你使用它們的方法是將這些微服務連接到大型應用程式。
未來最重要的應用之一當然是客戶服務。幾乎每個行業都需要Agent。這代表了數萬億美元的客戶服務。護理師在某些方面也是客戶服務Agent,一些非處方或非診斷性的護理師基本上是零售業的客戶服務,快速服務食品、金融服務、保險業。數以千萬計的客戶服務現在可以透過語言模型和AI增強。因此你看到的這些盒子基本上就是NIMs。
一些NIM 是推理Agent,給出任務,確定任務,分解成計劃。一些NIM 檢索資訊。一些NIM 可能會進行搜尋。有些NIM 可能會使用工具,例如黃仁勳之前提到的cuOpt。它可以使用在SAP 上運行的工具。因此它必須學習一種叫做ABAP 的特定語言。也許有些NIM 必須進行SQL 查詢。因此,所有這些NIM 都是專家,現在被組裝成一個團隊。
所以發生了什麼變化?應用層發生了變化。過去用指令編寫的應用程序,現在是組裝AI團隊的應用程式。很少有人知道如何編寫程序,但幾乎每個人都知道如何分解問題並組裝團隊。我相信未來每家公司都會有大量NIM 集合。你會下載你想要的專家,將它們連接成一個團隊,你甚至不必確切知道如何連接它們。你只需將任務交給一個Agent,一個NIM,讓它決定如何分配任務。那個團隊領導Agent 將會分解任務並分配給各個團隊成員。團隊成員會執行任務,將結果回饋給團隊領導,團隊領導會對結果進行推理並將資訊呈現給你,就像人類一樣,這是不久的未來,應用的未來形態。
當然,可以透過文字提示和語音提示與這些大型AI 服務互動。然而,有許多應用程式希望與人類形式互動。英偉達稱之為數位人類,並一直在研究數位人類技術。
黃仁勳繼續介紹,數位人類有可能成為與你互動的偉大Agent,使互動更加引人入勝,更有同情心。當然,我們必須跨越這個巨大的現實鴻溝,讓數位人類顯得更加自然。想像一下未來,電腦能夠像人類一樣與我們互動。這就是數位人類的驚人現實。數位人類將徹底改變從客戶服務到廣告和遊戲的各個行業。數字人類的可能性是無窮無盡的。
使用你目前廚房的掃描資料。透過你的手機,它們將成為AI室內設計師,幫助產生美麗的照片級建議,並提供材料和家具的來源。
英偉達已經為你產生了幾種設計選項可供選擇。它們也將成為AI 客戶服務Agent,使互動更加生動和個性化,或數位醫療工作者,檢查病人,提供及時和個性化的護理,它們甚至會成為AI 品牌大使,設定下一波行銷和廣告趨勢。
生成式AI 和電腦圖形學的新突破讓數位人類以類似人類的方式看見、理解和與我們互動。從我所看到的情況來看,你似乎是在某種錄音或製作設定中。數位人類的基礎是建立在多語言語音辨識和合成、以及能夠理解和產生對話的LLM模型上的AI模型。
這些AI 連接到另一個生成式AI,以動態地動畫化一個逼真的3D 臉部網格。最後,AI模型重現逼真的外觀,實現即時路徑追蹤的次表面散射,模擬光線如何穿透皮膚、散射並在不同點出射,使皮膚具有柔和和半透明的外觀。
NVIDIA Ace 是一套數位人類技術,包裝成易於部署的完全優化的微服務或NIM。開發者可以將Ace NIMs整合到他們現有的框架、引擎和數位人類經驗中,Nematons SLM和LLM NIMs 理解我們的意圖並協調其他模型。
Riva Speech Nims 用於互動式語音和翻譯,Audio to Face 和Gesture NIMs 用於臉部和身體動畫,Omniverse RTX 與DLSS 用於皮膚和頭髮的神經渲染。
相當令人難以置信。這些Ace 可以在雲端運行,也可以在PC 上運行,在所有RTX GPU中都包含了張量核心GPU,所以英偉達已經在出貨AI GPU,為這一天做準備。原因很簡單,為了創建一個新的運算平台,首先需要一個安裝基礎。
最終,應用程式會出現。如果不建立安裝基礎,應用程式怎麼會出現呢?所以如果你建造它,他們可能不會來。但如果你不建造它,他們就不能來。因此,英偉達在每個RTX GPU 中安裝了張量核心處理器。現在英偉達在全球有1 億台GeForce RTX AI PC,而英偉達正在出貨200 台。
在本次Computex,英偉達展示了四款新的令人驚嘆的筆記型電腦。它們都能夠運行AI。未來的筆記型電腦、PC 將成為一個AI。它將不斷在後台幫助你、協助你。 PC還將運行由AI增強的應用程式。
當然,你所有的照片編輯、寫作工具、你使用的一切工具都將由AI增強。你的PC還將託管具有數位人類的AI 應用程式。因此,AI 將在不同的方式中表現出來並被用於PC中。 PC 將成為非常重要的AI 平台。
那我們從這裡往哪裡走?我之前談到了資料中心的擴展。每次擴展時,我們都會發現一個新的飛躍。當從DGX 擴展到大型AI 超級電腦時,英偉達使Transformer 能夠在非常大的資料集上進行訓練。一開始,資料是人工監督的,需要人工標註來訓練AI。不幸的是,人類標註的數據是有限的。 Transformer 使得無監督學習成為可能。現在,Transformer 只需查看大量的數據、影片或圖像,它就能透過研究大量的數據自行找到模式和關係。
下一代AI 需要基於物理。今天的大多數AI 不了解物理定律,它們沒有紮根於物理世界。為了產生影像、視訊和3D圖形以及許多物理現象,我們需要基於物理學並了解物理定律的AI。你可以透過視訊學習來實現這一點,這是一種來源。
另一種方法是合成數據、模擬數據,另一種方法是讓電腦互相學習。這其實與AlphaGo 自我對弈沒有什麼不同,透過相同能力的對弈,經過很長時間,它們會變得更加聰明。你將開始看到這種類型的AI出現。
如果AI 數據是合成生成的,並使用強化學習,數據生成的速度將持續提高。每次資料產生成長,需要提供的計算量也需要成長。
我們即將進入一個階段,AI 可以學習物理定律,並紮根於物理世界的資料中。因此,英偉達預計車型將繼續成長,我們需要更大的GPU。
▍Blackwell
Blackwell 是為這一代設計的,擁有幾項非常重要的技術。首先是晶片的大小。英偉達在台積電製造了最大的晶片,並將兩個晶片透過每秒10TB的連接連接在一起,世界上最先進的SerDes 將這兩個晶片連接在一起。然後英偉達將兩個晶片放在一個運算節點上,透過Grace CPU 連接。
Grace CPU 可用於多種用途。在訓練情況下,可以用於快速檢查點和重新啟動。在推理和生成情況下,可以用於儲存上下文記憶,使AI了解你想要進行的對話的上下文,這是英偉達的第二代Transformer引擎,允許根據計算層所需的精度和範圍動態調整精度。
這是第二代具有安全AI 的GPU,可以要求服務提供者保護AI 免受盜竊或篡改。這是第五代NVLink,允許將多個GPU 連接在一起,我稍後會詳細介紹。
這是英偉達的第一代具有可靠性和可用性引擎的GPU。這個RAS 系統允許測試每個電晶體、觸發器、片上記憶體、片外內存,以便現場確定某個晶片是否有故障。擁有1 萬個GPU 的超級電腦的平均故障間隔時間是以小時計算的。擁有10 萬個GPU的超級電腦的平均故障間隔時間是以分鐘計算的。
因此,如果不發明技術來提高可靠性,超級電腦長時間運行並訓練幾個月的模型幾乎是不可能的。可靠性會提高正常運作時間,進而直接影響成本。最後是解壓縮引擎,數據處理是必須做的最重要的事情之一。英偉達增加了一個資料壓縮引擎和解壓引擎,使英偉達夠從儲存中提取資料的速度提高20 倍,比今天可能的速度更快。
Blackwell 正在生產中,擁有大量的技術,可以看到每個Blackwell 晶片,兩個連接在一起。你看到這是世界上最大的晶片。然後將兩個晶片透過每秒10TB 連接在一起,性能是驚人的。
英偉達的每一代計算的浮點運算能力增加了1000 倍。摩爾定律在八年內成長約40~60 倍。而在過去的八年裡,摩爾定律的成長速度大大減慢。即使在摩爾定律最好的時候,也無法與Blackwell 性能相比。
計算量是驚人的。每次提高運算能力,成本就會下降。英偉達已經透過增加運算能力,將訓練GPT-4 能量需求從1000 GWh 降低到3 GWh。 Pascal 需要1000 GWh 的能量。 1000 GWh 意味著需要一個GW 資料中心。世界上沒有一個GW的資料中心,但如果你有一個GW 資料中心,它需要一個月。如果你有一個100 MW 資料中心,需要大約一年。因此,沒有人會建造這樣的設施。
這就是為什麼在八年前,像ChatGPT 這樣的LLM 是不可能的。透過提高性能,隨著能源效率的提高,英偉達現在將Blackwell 的能量需求從1000 GWh 降低到3 GWh,這是一個令人難以置信的進步。如果是1萬個GPU,例如,需要幾天,可能需要10天左右。在短短八年內取得的進展是驚人的。
這部分是關於推理和生成token 的。產生一個GPT-4 token 需要兩個燈泡運作兩天。產生一個單字大約需要三個token 。因此,Pascal 產生GPT-4 並與你進行ChatGPT 體驗所需的能量幾乎是不可能的。但是現在每個token 只使用0.4 焦耳,並且可以以極低的能量產生token 。
Blackwell是一個巨大的飛躍。即便如此,它還不夠大。因此必須建造更大的機器。因此英偉達所建造的方法叫做DGX。
這是一個DGX Blackwell,這是空氣冷卻的,內部有8個GPU。看看這些GPU上的散熱片的大小,大約15千瓦,完全是空氣冷卻的。這個版本支援x86,進入了英偉達一直在發貨的Hoppers 基礎設施,英偉達有一個新的系統,稱之為MGX,意為模組化系統。
兩塊Blackwell板子,一個節點有四個Blackwell 晶片。這些Blackwell 晶片是液冷的,72 個GPU透過新的NVLink 連接在一起。這是第5 代NVLink 交換機,NVLink 交換機本身就是一個技術奇蹟,這是世界上最先進的交換機,數據速率驚人,這些交換機將每一個Blackwell 連接在一起,因此有一個巨大的72 個GPU 的Blackwell。
這樣做的好處是,在一個域中,一個GPU 域現在看起來像一個GPU,這個GPU 有72個,而上一代是8 個。因此增加了九倍的頻寬。 AI 浮點運算效能增加了18 倍,提高了45 倍。而功耗僅增加了10 倍,這是100 千瓦,而那是10 千瓦。這是一個。
當然,你總是可以將更多這些連接在一起,我稍後會展示如何做到這一點。但奇蹟在於這個晶片,這個NVLink 晶片。人們開始意識到這個NVLink 晶片的重要性,因為它連接了所有這些不同GPU。因為LLM 非常龐大,不能只放在一個GPU上,也不能只放在一個節點上。它需要整個GPU 機架,像是我剛剛站在旁邊的新DGX,它可以容納數兆參數的LLM。
NVLink 交換器本身就是一個技術奇蹟,擁有500 億個晶體管,74 個端口,每個端口400Gbps,橫截面頻寬7.2Tbps。但重要的是它在交換器內有數學運算能力,這在深度學習中非常重要,可以在晶片上進行歸約運算。所以這就是現在的DGX。
黃仁勳表示,許多人問,有人對英偉達的工作產生了困惑,為什麼英偉達透過製造GPU 變得如此龐大。因此有人認為這就是GPU 的樣子。
現在這是一個GPU,這是世界上最先進的GPU之一,但這是一個遊戲GPU。你和我知道這就是GP的樣子。這是一個GPU,女士們先生們,DGX GPU。你知道這個GPU的背面是NVLink主幹。 NVLink 主幹有5000 根線,兩英里長,它將兩個GPU連接在一起,這是一個電氣、機械奇蹟。收發器使能夠在銅線上驅動整個長度,能夠在一個機架中節省20 千瓦的功耗。
黃仁勳表示,有兩種類型的網路。 InfiniBand 在全球超級運算和AI 工廠中被廣泛使用,成長速度驚人。然而,不是每個資料中心都能處理InfiniBand,因為他們已經在其生態系統中投資了太多Ethernet,並且管理InfiniBand 交換器和網路需要一些專業知識。
因此英偉達將InfiniBand 能力帶到了Ethernet 架構,這是非常困難的。原因很簡單。 Ethernet 是為高平均吞吐量設計的,因為每個節點,每台電腦都連接到互聯網上的不同人,大多數通訊是與互聯網另一端的人進行資料中心的。
然而,深度學習和AI 工廠,GPU 主要是相互通訊的。它們彼此通信,因為它們在收集部分產品,然後進行歸約並重新分發。部分產品的收集、歸約和重新分發。這種流量是非常突發的,重要的不是平均吞吐量,而是最後一個到達的。因此英偉達創建了幾項技術,創建了端到端架構,使網路介面卡和交換器可以通信,並應用了四種不同的技術來實現這一點。首先,英偉達擁有世界上最先進的RDMA,現在能夠在Ethernet 上進行網路級RDMA,這是非常了不起的。
第二,英偉達有擁塞控制。交換器一直在進行快速遙測,當GPU 或網路介面卡發送太多訊息時,可以告訴它們退後,以免造成熱點。
第三,自適應路由。 Ethernet 需要依序傳輸和接收。英偉達看到擁塞或未使用的端口,無論順序如何,將發送到可用端口,BlueField 在另一端重新排序,以確保順序正確,自適應路由非常強大。
最後,噪音隔離。資料中心總是有多個模型在訓練或其他事情在進行,它們的雜訊和流量可能會相互幹擾並導致抖動。因此,當一個訓練模型的噪音導致最後一個到達的時間過晚時,整體訓練速度會顯著降低。
記住,你已經建造了一個價值50 億美元或30 億美元的資料中心,用於訓練。如果網路利用率降低40%,導致訓練時間延長20%,50 億美元的資料中心實際上相當於一個60 億美元的資料中心。因此成本影響非常大。使用Spectrum X 的Ethernet 允許大幅提高效能,而網路基本上是免費的。
英偉達有一整條Ethernet產品線。這是Spectrum X800,速度為每秒51.2Tbps,256個連接埠。接下來的是512個端口,明年推出,稱為Spectrum X800 Ultra,接下來是X16。重要的概念是X800 設計用於成千上萬個GPU,X800 Ultra 設計用於數十萬個GPU,X16 設計用於數百萬個GPU,數百萬個GPU 資料中心時代即將到來。
未來幾乎你與網路或電腦的每一次互動都會在某個地方運行一個生成式AI。這個生成式AI與你合作,與你互動,生成影片、圖像或文本,甚至是一個數位人類。你幾乎一直在與電腦互動,總有一個生成式AI 連接著,部分在本地,部分在你的設備上,大部分可能在雲端。這些生成式AI 也會進行大量推理能力,不是一次性的回答,而是透過多次迭代來改進答案的品質。所以未來產生的內容量將會是驚人的。
Blackwell當然是英偉達平台的第一代,在世界認識到生成式AI時代來臨之際發布。正當世界意識到AI工廠的重要性,正值這場新工業革命的開始。英偉達幾乎得到了所有OEM、電腦製造商、雲端服務供應商、GPU雲、主權雲,甚至電信公司的支持。 Blackwell 的成功、採用和熱情真是難以置信。我想感謝大家。
黃仁勳繼續比哦啊是,在這個驚人的增長期間,英偉達要確保繼續提高性能,繼續降低訓練成本和推理成本,並繼續擴展AI 能力,使每家公司都能接受。英偉達推動性能的提升,成本的下降越大。 Hopper 平台當然是史上最成功的資料中心處理器,這真的是一個不可思議的成功故事。
然而,Blackwell 已經到來,每一個平台,如你所見,都包含了幾樣東西。你有CPU,有GPU,有NVLink,有網路接口,還有連接所有GPU的NVLink 交換機,盡可能大規模的網域。無論能做什麼,英偉達都將其連接到大規模、非常高速的交換器。
每一代產品,你會發現不只是GPU,而是整個平台。建構整個平台。將整個平台整合到一個AI 工廠超級電腦中。然而,再將其分解並提供給世界。這樣做的原因是因為你們所有人都可以創建有趣和創新的配置,並適應不同的資料中心和不同的客戶需求,有些用於邊緣運算,有些用於電信。所有不同的創新都是可能的,如果將系統開放,並使你們能夠創新。因此英偉達設計了整合的,但將其分解提供給客戶,以便可以創建模組化系統。
Blackwell 平台已經到來,英偉達的基本理念非常簡單:每年建造整個資料中心,分解並以零件形式銷售,將一切推向技術的極限,無論是台積電的工藝技術、封裝技術、內存技術、SerDes技術、光學技術,一切都被推向極限。之後,確保所有軟體都能在整個安裝基礎上運作。
軟體慣性是電腦中最重要的事情之一。當電腦向後相容,並與所有已創建的軟體架構相容時,你進入市場的速度會快得多。因此,當能夠利用已經創建的整個軟體安裝基礎時,速度是驚人的。
黃仁勳表示,Blackwell 已經到來,明年是Blackwell Ultra,就像有H100 和H200,你們可能會看到一些令人興奮的新一代Blackwell Ultra,推動極限。我提到的下一代Spectrum 交換機,這是第一次實現這種飛躍,下一代平台叫做Ruben,再一年後將有Ruben Ultra 平台。
展示的所有這些晶片都在全速開發中,100% 的開發。這是英偉達一年的節奏,所有100% 架構相容,英偉達正在建造的所有豐富的軟體。
▍AI 機器人
讓我談談接下來會發生什麼,下一波AI 是物理AI,了解物理定律,能夠在我們中間工作。因此,它們必須理解世界模型,理解如何解釋世界,如何感知世界。它們當然也需要出色的認知能力,以便理解我們的問題並執行任務。
機器人是一個更廣泛的概念。當然,當我說機器人時,通常指的是人形機器人,但這並不完全正確。一切都將是機器人。所有的工廠將是機器人化的,工廠將協調機器人,這些機器人將製造機器人產品,機器人相互合作,製造機器人產品。為了實現這一點,需要一些突破。
接下來,黃仁勳展示了一段視頻,影片中提到:
機器人時代已經來臨。一天內,所有移動的東西都將是自主的。世界各地的研究人員和公司正在開發由實體AI驅動的機器人,這些AI模型能夠理解指令,並在現實世界中自主執行複雜任務。多模態LLM 是突破,使機器人能夠學習、感知和理解周圍的世界,並規劃它們的行動。
透過人類演示,機器人現在可以學習所需的技能,使用粗大和精細的運動技能與世界互動。推進機器人技術的一個關鍵技術是強化學習。就像LLM 需要RLHF來學習特定技能一樣,生成物理AI 可以使用物理回饋在模擬世界中學習技能。這些模擬環境是機器人透過在遵循物理定律的虛擬世界中執行動作來學習決策的地方。在這些機器人健身房中,機器人可以安全快速地學習執行複雜和動態的任務,透過數百萬次試驗和錯誤行為來提高技能。
英偉達建構了NVIDIA Omniverse 作為實體AI的作業系統。 Omniverse 是一個虛擬世界模擬開發平台,結合了即時實體渲染、實體模擬和生成式AI技術。在Omniverse 中,機器人學習如何成為機器人。它們學習如何自主精確地操控物體,例如抓取和處理物體,或自主導航環境,找到最佳路徑,同時避免障礙物和危險。在Omniverse 中學習最大限度地減少模擬與現實的差距,並最大限度地轉移所學行為。
建造具有生成實體AI的機器人需要三台電腦:NVIDIA AI超級電腦來訓練模型,NVIDIA Jetson Orin 和下一代Jetson Thor 機器人超級電腦來運行模型,以及NVIDIA Omniverse,機器人可以在模擬世界中學習和改進技能。建立了開發人員和公司所需的平台、加速程式庫和AI模型,並允許他們使用最適合的堆疊。下一波AI已經到來。由實體AI 驅動的機器人將徹底改變各個產業。
黃仁勳提到,這不是未來,這正在發生。英偉達將透過幾種方式服務市場。首先,英偉達將為每種類型的機器人系統創建一個平台,一個用於機器人工廠和倉庫,一個用於操縱物體的機器人,一個用於移動的機器人,一個用於人形機器人。因此,每個機器人平台就像英偉達做的幾乎所有事情一樣,都是電腦、加速庫和預訓練模型。計算機、加速庫、預訓練模型。在Omniverse 中測試、訓練和整合所有東西,正如影片所說,機器人在這裡學習如何成為機器人。
當然,機器人倉庫的生態系統非常複雜。建造現代倉庫需要很多公司、很多工具、很多技術,倉庫日益自動化。有一天,它們將完全自動化。因此,在每個生態系統中,都有連接到軟體產業的SDK 和API,連接到邊緣AI 產業和公司的SDK 和API,以及為Odms 設計的PLC 和機器人系統的系統整合。這些最終由整合商集成,建構給客戶的倉庫。這裡有一個例子,Kenmac 為Giant 集團建造的機器人倉庫。
黃仁勳繼續表示,工廠有一個完全不同的生態系統,富士康正在建造世界上一些最先進的工廠。它們的生態系統再次包括邊緣電腦和機器人,設計工廠的軟體、工作流程、程式設計機器人以及協調數位工廠和AI 工廠的PLC 電腦。英偉達有連接到每個生態系統的SDK,這在整個台灣都在發生。
富士康正在為其工廠建造數位孿生體。台達正在為其工廠建造數位孿生體。順便說一下,一半是真的,一半是數字的,一半是Omniverse。和碩正在為其機器人工廠建造數位孿生體,廣達正在為其機器人工廠建造數位孿生體。
黃仁勳繼續演示了一段視頻,影片中提到:
隨著世界將傳統資料中心現代化為生成式AI工廠,對NVIDIA加速運算的需求正在飆升。富士康,世界上最大的電子製造商,正準備透過NVIDIA Omniverse和AI建造機器人工廠來滿足這項需求。工廠規劃人員使用Omniverse將來自西門子Team Center X和Autodesk Revit等領先產業應用程式的設施和設備資料整合到數位孿生體中。
在數位孿生體中,他們優化了地板佈局和生產線配置,並定位了最佳相機位置,以使用NVIDIA Metropolis支援的視覺AI監控未來的操作。虛擬整合節省了規劃人員在建造期間龐大的實體變更訂單成本。富士康團隊使用數位孿生體作為準確設備佈局的真實來源進行溝通和驗證。
Omniverse數位孿生體也是機器人健身房,富士康開發人員在這裡為機器人感知和操作訓練和測試NVIDIA Isaac AI應用程序,以及用於感測器融合的Metropolis AI應用程式。
黃仁勳繼續表示,在Omniverse中,富士康模擬了兩個機器人AI,在將運行時部署到裝配線上的Jetson 電腦之前。他們模擬了Isaac Manipulator 庫和用於自動光學檢測的AI模型,以進行物體識別、缺陷檢測和軌跡規劃。他們還模擬了Isaac Perceptor驅動的Ferrobot AMRS,這些機器人透過3D映射和重建感知和移動他們的環境。透過Omniverse,富士康建立了運作在NVIDIA Isaac上的機器人工廠,這些機器人建造了NVIDIA AI超級計算機,反過來訓練富士康的機器人。
一個機器人工廠設計了三台電腦。首先在NVIDIA AI上訓練AI,然後在PLC系統上運行機器人以協調工廠操作,最後在Omniverse中模擬一切。機器手臂和機器人AMRS也是如此,三個電腦系統的區別在於兩個Omniverse將結合在一起,共享一個虛擬空間。當它們共享一個虛擬空間時,機器人手臂將進入機器人工廠。再次強調,三台計算機,提供計算機、加速層和預訓練AI模型。
英偉達將NVIDIA Manipulator和NVIDIA Omniverse與世界領先的工業自動化軟體和系統公司西門子連接起來。這真的是一個非常棒的合作,他們正在世界各地的工廠工作。
Semantic Pick AI現在整合了Isaac Manipulator,Semantic Pick AI運行並操作ABB、Kuka、安川、Fanuc、Universal Robotics和Techman。因此,西門子是一個絕佳的整合。
黃仁勳繼續演示了一段視頻,影片中提到:
Arcbest正在將Isaac Perceptor整合到Fox智慧自主機器人中,以增強物體辨識和人體動作追蹤及材料處理。比亞迪電子正在將Isaac Manipulator和Perceptor整合到他們的AI機器人中,以提高全球客戶的製造效率。 Ideal Works正在將Isaac Perceptor整合到他們的iOS軟體中,用於工廠物流中的AI機器人。
Gideon正在將Isaac Perceptor整合到托盤AI驅動的堆高機中,以推進AI驅動的物流。 Argo Robotics正在採用Isaac Perceptor用於高階視覺AMRS的感知引擎。 Solomon正在他們的Acupic 3D軟體中使用Isaac Manipulator AI模型進行工業操作。 Techman Robot正在將Isaac Sim和Manipulator整合到TM Flow中,以加速自動光學偵測。 Teradine Robotics正在將Isaac Manipulator整合到Polyscope X用於協作機器人,並將Isaac Perceptor整合到MiR AMRS中。
Vention正在將Isaac Manipulator整合到Machine Logic中,用於AI操作機器人。機器人技術已經到來,實體AI已經到來。
黃仁勳繼續介紹,這不是科幻小說,它正在整個台灣被廣泛應用,真的非常令人興奮。這是工廠,裡面的機器人,當然所有產品也會是機器人化的。
有兩種非常高產量的機器人產品。一種當然是自動駕駛汽車或具有高度自動駕駛能力的汽車。英偉達再次建構了整個堆疊。
明年,英偉達將與梅賽德斯車隊一起投入生產。之後,在2026 年,將是JLR 車隊。英偉達向世界提供整個堆疊。然而,你可以選擇英偉達堆疊中的任何部分,任何層,就像整個Drive 堆疊是開放的。
下一個將由機器人工廠內的機器人製造的高產量機器人產品可能是人形機器人。近年來在認知能力和世界理解能力方面取得了巨大進展,這要歸功於基礎模型和英偉達正在開發的技術。
黃仁勳表示,他對這一領域非常興奮,因為顯然,最容易適應世界的機器人是人形機器人,因為我們為自己建造了這個世界,還可以透過演示和影片提供大量的訓練數據,遠遠超過其他類型的機器人。因此,英偉達將在這一領域看到很多進展。
下一波AI。台灣不僅製造有鍵盤的計算機,還製造用於口袋的計算機、用於資料中心的計算機。在未來,你們將製造會走動的計算機和四處滾動的計算機。這些都是計算機。事實證明,建造這些計算機的技術與今天你們已經建造的所有其他計算機的技術非常相似,這將是一個非常非凡的旅程。