老黃數位人登場:英偉達秀「元宇宙」肌肉 推巴掌大AI超算和虛擬人平臺
今日,人工智慧及高性能計算頂級技術盛會NVIDIA GTC大會如約而至。 這個市值已高達7700億美元的AI頂級玩家,剛剛推出全球最小、功能最強大、能效最高的下一代AI超級計算機NVIDIA Jetson AGX Orin,其算力達到200TOPS,可與內置GPU的伺服器媲美。
黃仁勳「手辦」對答如流,英偉達強勢拉開元宇宙序幕,幫企業開發大模型。
在下午的虛擬主題演講中,NVIDIA創始人兼CEO黃仁勳穿著熟悉的皮衣,公佈了一系列最新AI技術和產品,並推出承載著其”元宇宙”願景的全新虛擬化身平臺。
由這個平臺生成的”迷你玩具版黃仁勳”Toy-Me,能與人自然地問答交流。
在幫助企業降低AI開發部署門檻方面,NVIDIA可以說是做到了極致,比如提供方便企業構建AI大模型的框架,以及定製專屬聲音的虛擬助手。
黃仁勳說,NVIDIA開發者數量已接近300萬,CUDA過去15年下載量達3000萬次,一年下載量達到700萬。
此外,NVIDIA繼續表露對醫療健康領域的熱情,推出搭載新一代Orin晶元、無縫連接醫療設備和邊緣伺服器的AI計算平臺Clara Holoscan。
黃仁勳還宣佈,NVIDIA將構建一個數位孿生模型來類比和預測氣候變化,新的超級計算機將名為E-2,即Earth Two,地球的數位孿生,能夠在虛擬世界模擬引擎Omniverse中以Million-X百萬倍的速度運行。
01.
Jetson AGX Orin:
手掌大小,算力堪比伺服器
自2014年推出Jetson TK1至今,NVIDIA Jetson系列已經積累了85萬名開發者。
今日,NVIDIA推出全球最小、功能強大、能效最高的新一代AI超級計算機NVIDIA Jetson AGX Orin,用於機器人、自主機器、醫療器械和其他形式的邊緣嵌入式計算。
Jetson AGX Orin保持了與前代機型Jetson AGX Xavier相同的外形尺寸和引腳相容性,處理能力提升6倍,每秒算力達200TOPS,可與內置GPU的伺服器相媲美,而尺寸只有手掌那麼大。
它採用NVIDIA Ampere架構GPU、Arm Cortex-A78AE CPU以及新一代深度學習和視覺加速器。 高速介面、更快的存儲頻寬和對多模態感測器的支援,為多個並行AI應用流水線輸送數據。
與歷代Jetson電腦一樣,使用Jetson AGX Orin的客戶可以運用NVIDIA CUDA-X加速計算棧、NVIDIA JetPack SDK和最新NVIDIA工具進行應用開發和優化,包括雲原生開發工作流程。
來自NVIDIA NGC目錄的預訓練模型已經過優化,並可以使用NVIDIA TAO工具套件和客戶數據集進行微調。 這減少了生產級AI的部署時間和成本,而雲原生技術實現了產品整個生命週期內的無縫更新。
DRIVE AGX Orin同樣由Jetson AGX Orin等 NVIDIA Ampere架構提供支援,它是新發佈的NVIDIA DRIVE Concierge和DRIVE Chauffeur背後的先進處理器,這兩個AI平台分別為安全的自動駕駛提供動力。
針對特定用例的軟體框架包括用於機器人技術的NVIDIA Isaac Sim,用於自動駕駛的NVIDIA DRIVE,用於智慧城市的NVIDIA Metropolis。 最新的Isaac版本包括對機器人操作系統(ROS)開發人員社區的重要支援。
NVIDIA還發佈了用於Isaac Sim的全新NVIDIA Omniverse Replicator,用於為機器人生成合成訓練數據。 這些硬體加速軟體包使ROS開發者更容易在Jetson平臺上構建高性能AI機器人。
NVIDIA Jetson AGX Orin模組和開發者工具包將於2022年第一季度上市。
黃仁勳還在演講中談道:「到2024年,絕大多數新款電動汽車將具備強大的自動駕駛能力。 ”
他展示了一個新自動駕駛平臺DRIVE Hyperion 8 GA,這是2024年模型的架構。 其感測器套件包含12個攝像頭、9個毫米波雷達、12個超聲波雷達和1個前向鐳射雷達,所有這些都由2顆NVIDIA DRIVE Orin晶元來進行處理。
據他透露,目前,英偉達已經在全球各地收集到了PB級的道路數據,並擁有大約3000名訓練有素的標記員,創建訓練數據。 儘管如此,合成數據仍是NVIDIA數據策略的基石。
02.
NeMo Megatron:
讓企業開發自己的大模型
為了方便企業開發部署大型語言模型,NVIDIA推出了為訓練具有數萬億參數的語言模型而優化的加速框架NeMo Megatron。
NVIDIA NeMo Megatron是Megatron的基礎上發展起來的。 Megatron是由NVIDIA研究人員主導的開源專案,研究大型Transformer語言模型的高效訓練。 Megatron 530B是全球最大的可定製語言模型。
利用先進的數據、張量和管道並行化技術,它能使大型語言模型的訓練有效地分佈在成千上萬的GPU上。
企業可以通過NeMo Megatron框架,進一步訓練它以服務新的領域和語言。 經優化,該框架可以在NVIDIA DGX SuperPOD的大規模加速計算基礎設施上進行擴展。
除了NeMo Megatron外,NVIDIA還推出了一個開發Physics-ML模型的框架NVIDIA Modulus。
它使用物理原理及源自原理型物理和觀測結果的數據訓練Physics-ML模型,支援多GPU多節點訓練,由此生成的模型,其物理模擬速度比類比快1000-100,000倍。
科學家可藉助Modulus創建數位孿生模型,來解決預測氣候變化等重要科學問題。
例如研究人員利用歐洲中期天氣預報中心的ERA5大氣數據訓練Physics-ML模型,該模型在128個A100 GPU上訓練需要4小時,訓練后的模型能以30公里的空間解析度預測颶風嚴重程度和路徑。
原本需要7天才能完成的預測,現在在一個GPU上只需0.25秒,比類比快了10萬倍。
為了幫助企業加快AI之旅,NVIDIA宣佈在全球範圍內擴展其LaunchPad計劃,它允許使用者即時訪問在加速基礎設施上運行的NVIDIA AI軟體。 企業可使用NVIDIA LaunchPad免費體驗開發和部署大型語言模型。
LaunchPad計劃由Equinix服務支援,包括數據中心、連接和裸金屬產品,獲得LaunchPad體驗后,企業可以在全球Equinix地點運行其NVIDIA加速的人工智慧工作負載。
03.
Riva定製語音:
快速創建定製版品牌聲音
NVIDIA的Riva語音AI軟體同樣有了新進展,黃仁勳宣佈了該軟體一個新功能——Riva定製語音。
Riva可識別英語、西班牙文、德語、法語、日語、普通話和俄語等7種語言,可以生成隱藏字幕、翻譯、摘要、回答問題並理解意圖。
只需訓練30分鐘的音訊數據,企業即可構建屬於自己品牌大使的聲音,獲得類似人類的表現力。
也就是說,用戶根據特定的領域或行業術語,可以量身定製擁有獨特聲音的虛擬助理。
不到三年間,NVIDIA的對話AI軟體已被下載超過25萬次,並被廣泛採用到各個行業。
對於小規模研發,NVIDIA NGC容器註冊表免費提供NVIDIA Riva,開發者可加入Riva開放測試版程式來試用該軟體。
對於擁有大規模部署並尋求NVIDIA專家技術支持的客戶,NVIDIA宣佈了NVIDIA Riva Enterprise計劃,該計劃預計將於明年初推出。
04.
Omniverse Avatar:
構建生動的智慧虛擬化身
虛擬助手的下一步,是擁有常識、推理能力和生動的視覺形象。
在GTC大會上,黃仁勳宣佈推出一個全方位的虛擬化身平臺——Omniverse Avatar。
它是NVIDIA一系列先進AI技術的集大成者,將Metropolis的感知能力、Riva的語音辨識能力、Merlin的推薦能力、Omniverse的動畫渲染能力等交彙於一體。
這使得開發者能構建出一個完全互動式的虛擬化身,它足夠生動,能對語音和面部提示做出反應,能理解多種語言,能給出智能的建議。
黃仁勳展示了一些例子。
比如,其玩偶複製品可以跟人對答如流。
Metropolis工程師用Maxine創建了Tokkio智慧操作台應用程式,讓操作臺具有高度交互性,可快速做出對話回應。
在餐廳,兩名顧客點餐時,一個客戶服務虛擬化身可以跟他們交談和理解他們的需求。
這些演示由NVIDIA AI軟體和Megatron 530B提供支援,Megatron 530B是目前世界上最大的可定製語言模型。
在DRIVE Concierge AI平臺的演示中,中央儀錶板螢幕上的數位助理,可幫助司機選擇最佳駕駛模式,使其按時到達目的地,然後在汽車續航里程下降到100英里以下時,按他的請求設置提醒。
Maxine專案更強調多種語言的實時翻譯和轉錄。
借助Maxine,這個人的話不僅被轉錄,還能以相同的聲音和語調被實時轉換成德語、法語等多種語言。
Maxine使用計算機視覺來追蹤人的面部,並識別其表情,3D動畫可為其製作虛擬而逼真的頭像。
可以想像,在企業和開發人員中,每個行業都需要某種形式的虛擬化身。
使用Omniverse Avatar平臺,你可以為視頻會議和協作平臺、客戶支援平臺、內容創建、應用收益和數位孿生、機器人應用等等構建定製的AI助理。
NVIDIA的虛擬世界類比Omniverse是打造虛擬世界的關鍵平臺。 從機器人、自動駕駛車隊、倉庫、工業廠房到整個城市,都能在Omniverse數字孿生中完成創建、訓練和運行。
黃仁勳說,Omniverse面向數據中心規模設計,有朝一日有望能達到全球數據規模。
愛立信正構建整個城市的數位孿生環境,幫助確定如何放置和配置每個網站以獲得最佳覆蓋範圍和網路性能,可對整個5G網路執行逼真遠端模擬。
05.
AI推理:Triton推理
伺服器助力即時大模型推理
目前微軟、三星、Snap等25000多家客戶都在使用NVIDIA的AI推理平臺。
今日,NVIDIA推出多節點分散式推理功能的NVIDIA Triton推理伺服器,以及NVIDIA A2 Tensor Core GPU加速器。
NVIDIA A2 GPU是一個入門級、低功耗的緊湊型加速器,適用於邊緣伺服器中的推理和邊緣AI,推理性能比CPU高出20倍。
NVIDIA AI推理平臺此次更新包括開源NVIDIA Triton推理伺服器軟體的新功能,和對NVIDIA TensorRT的更新。
最新NVIDIA Triton推理伺服器中的多GPU、多節點特性,使大型語言模型推理工作負載能夠即時在多個GPU和節點上擴展。
借助Triton推理伺服器,Megatron 530B能在兩個NVIDIA DGX系統上運行,將處理時間從CPU伺服器上的1分鐘以上縮短到0.5秒,令即時部署部署大型語言模型成為可能。
在軟體優化上,Triton推理伺服器的模型分析器,新工具可以自動化地從數百種組合中為AI模型選擇最佳配置,以實現最優性能,同時確保應用程式所需的服務品質。
RAPIDS FIL是針對隨機森林和梯度提升決策樹模型GPU或CPU推理的新後端,為開發者使用Triton進行深度學習和傳統機器學習提供了一個統一的部署引擎。
Triton與AWS、阿裡雲等平臺集成,並支援在各代GPU、x86 CPU和Arm CPU上優化AI推理工作負載。 NVIDIA AI Enterprise也整合了Triton。
NVIDIA AI Enterprise是一款經NVIDIA優化、認證和支援的用於開發和部署AI的端到端軟體套件,客戶可利用它在本地數據中心和私有雲的主流伺服器上運行AI工作負載。
NVIDIA旗艦TensorRT推理引擎亦進行了更新,已原生集成到TensorFlow和PyTorch中,只需1行代碼,就能提供比框架內推理快3倍的性能。
NVIDIA TensorRT 8.2是SDK的最新版本,可即時運行數十億個參數的語言模型。
NVIDIA還宣佈微軟會議軟體Teams採用NVIDIA AI和Azure認知服務。
微軟Azure認知服務為高品質AI模型提供基於雲的API,以創建智慧應用程式。 他們在用Triton運行語音轉文本模型,為微軟Teams使用者提供準確的即時字幕和轉錄。
微軟Teams每月有近2.5億活躍使用者,微軟Azure認知服務上的NVIDIA GPU和 Triton推理伺服器使用28種語言和方言,結合AI模型説明提升即時字幕和轉錄功能的成本效益。
Mavenir宣佈由NVIDIA Metropolis AI-on-5G平臺提供支援的MAVedge-AI智能視頻分析,以加速企業人工智慧,該方案預計2022年初提供給客戶。
06.
數據中心:全新網路安全功能
面向數據中心,黃仁勳宣佈推出BlueField DOCA 1.2來支援全新網路安全功能,希望使BlueField成為業界構建零信任安全平臺的理想之選。
目前有1400名開發者正在BlueField上進行開發,現在採用BlueField的網路安全公司已可提供零信任安全即服務。
NVIDIA還發明瞭一個深度學習網路安全平臺Morpheus來監控分析網路行為。
它構建於NVIDIA RAPIDS和NVIDIA AI之上,其工作流會為每種應用和使用者的組合創建AI模型和數字指紋,並學習其日常的模式和尋找異常操作。 這些異常操作將觸發安全警告,並提醒分析員作出回應。
Bluefield、DOCA和Morpheus都是數據中心的全堆棧加速AI解決方案的一部分。 NVIDIA將為其網路安全合作夥伴提供一個零信任的安全平臺,從而提高安全性和應用程式性能。
Bluefield坐在網路上,向Morpheus AI平臺提供數據中心發生的所有活動。 Morpheus是一個深度學習網路安全平臺,可以監控和分析來自每個使用者、機器和服務的所有資訊。
NVIDIA今日也宣佈了Morpheus早期訪問2版本。
Morpheus創建了預訓練的用戶活動指紋模型。 當這些指紋發生變化時,它能夠實時識別出異常交易正在發生,創建一個可疑行為正在發生的安全警報,並隔離活動和加以提醒。
07.
醫療健康:合作癌症中心,推新機器人平臺
在醫療健康領域,NVIDIA宣佈與多家先進癌症中心合作,將AI的力量帶到癌症治療。 這些癌症中心將採用NVIDIA DGX來加速開發AI模型。
許多醫療設備公司正在將AI和機器人技術融入其中,在機器人手術、移動CT掃描、支氣管鏡檢中使用NVIDIA加速計算平臺。
為加速AI醫療設備的應用,NVIDIA推出一個面向醫療健康行業的新計算平臺NVIDIA Clara Holoscan。
Holoscan是繼Isaac和Drive后,NVIDIA的第三個機器人平臺,能為可擴展、軟體定義、端到端流媒體數據處理的醫療設備提供所需的計算基礎設施。
該平臺集成了NVIDIA AGX Orin和ConnectX-7,FP32算力達5.2TFLOPS,AI算力達250TOPS,740Gbps高速IO用於連接感測器。
添加RTX A6000 Ampere GPU后,可獲得另外39TFLOPS(FP32)和超過600TOPS的AI推理性能。
Clara Holoscan是一個醫療設備與邊緣伺服器無縫連接的端到端平臺,能助力開發者創建AI微服務,用以在設備上運行低延遲串流應用,同時將更複雜的任務傳至數據中心資源。
借助Clara Holoscan,開發者可以自定義應用,按需在其醫療設備中充分添加或減少計算和輸入/輸出功能,從而平衡延遲、成本、空間、性能和頻寬的需求。
Clara Holoscan SDK通過加速庫、AI模型和超聲波、數位病理學、內窺鏡檢查等參考應用支援此項工作,以幫助開發者利用嵌入式和可擴展的混合雲計算。
在藥物發現方面,加拿大AI製藥創企Entos發明瞭一種深度學習架構OrbNet,用物理機器學習方法訓練圖神經網路,取代分子類比中昂貴的原子間作用力,將分子類比速度提高1000倍。
08.
Quantum-2:史上最先進端到端網路平臺
此次GTC期間,NVIDIA還宣佈了下一代NVIDIA Quantum-2平臺,可進行雲原生超級計算。
該網路平臺由NVIDIA Quantum-2交換機、ConnectX-7網路適配器、BlueField-3數據處理單元(DPU)和支援新架構的所有軟體組成。 ConnectX-7將於明年1月問世。
其中,Quantum-2 InfiniBand交換機基於新的Quantum-2 ASIC,採用台積電7N節點,包含570個晶體管,超過有540億晶體管的A100。
Quantum-2 InfiniBand擁有400Gbps,網路速度翻倍,交換機輸送量增加了2倍,集群可擴展性增為原來的6.5倍,同時降低了數據中心的功耗。
其多租戶性能隔離利用先進的基於遙測的擁塞控制系統,確保可靠的輸送量,無論使用者激增或工作量需求激增,都能確保可靠的輸送量,從而防止一個租戶的活動干擾其他租戶的活動。
相比上一代,第三代SHARPv3TM網路計算技術的交換機計算能力比原來高32倍,用於加速AI訓練。
09.
新加速庫:優化路線規劃,加速量子類比
最後,我們來看看NVIDIA推出的3個新加速庫。
首先是NVIDIA ReOpt,這是一款針對運籌優化問題的加速求解器,可實現即時路線規劃優化。
以與NVIDIA合作的達美樂披薩為例,配送14個披薩的路徑有870億種,這意味達美樂要在30分鐘內將披薩送達絕非易事。
運籌優化對「最後一英里」配送是必需的,路線規劃是個極為棘手的物流問題,如果應用到行業中,即使是小規模的路線優化也能節省數十億美元。
黃仁勳展示了一個用NVIDIA Omniverse虛擬倉庫來展示優化路線在自動訂單揀選場景中的影響,優化后的規劃能使訂單揀選節省一半的時間和路程。
當前路線優化求解器收到新訂單后,需要數小時來重新運行和回應,而ReOpt能持續運行並即時動態地進行重新優化,在短短幾秒鐘內回應並擴展至數千個位置。
第二個是cuQuantum DGX設備,配備有針對量子計算工作流的加速庫,可用態向量和張量網路的方法來加速量子電路類比。
GoogleCirq將成第一個得到加速的量子模擬器。
借助該設備,曾經需要耗費幾個月的類比,現在幾天就能完成。
NVIDIA研究部門在量子演算法類比方面取得了重要里程碑,用1688個量子位為3375個頂點集求解MaxCut問題。
這是有史以來最大的精確量子電路類比,比以往類比的量子位多8倍。
cuQuantum DGX設備將在第一季度推出。
第三個加速庫是在PyData和NumPy生態系統的大規模加速計算cuNumeric,它允許使用者用Python代碼在超級計算機上透明加速和擴展NumPy工作流,並無需更改代碼。
它屬於NVIDIA RAPIDS開源Python數據科學套件,RAPIDS今年的下載量超過50萬次,比去年增長了4倍多。 NumPy在過去5年下載量達到了1.22億次,別用於GitHub上近80萬個專案。
在著名的CFD Python教學代碼中,cuNumeric能擴展至1000個GPU,而擴展效率僅比線性擴展效率損失了20%。
10.
結語
乘著AI、高性能計算和元宇宙的東風,NVIDIA今年過得可謂風生水起,市值一路扶搖直上,突破7700億美元。 其Omniverse平臺更是被分析機構視作NVIDIA一項重要的平臺擴張戰略。
在這表面風光的背後,NVIDIA的遠見和前瞻性不容小覷。 無論是如火如荼的AI,還是方興未艾的虛擬世界,NVIDIA能成為科技熱潮的直接受益者,都離不開過去多年對其軟硬體產品的打磨。
此次NVIDIA GTC大會期間,我們還將看到更多覆蓋深度學習、數據科學、高性能計算、機器人等領域的最新進展,而始於NVIDIA CUDA的加速計算正在這些領域催化效率提升,推動現代科技快速進化、走向未來。