微軟發表首款數據處理晶片推動伺服器效能提升400%
在北京時間11月19日晚間Microsoft Ignite 2024大會上,美股科技巨頭微軟公司推出了一系列關於Azure雲端運算和AI 相關的服務和軟硬體產品。其中,微軟推出了首款用於內部業務的資料處理器Azure Boost DPU。
作為微軟的首款內部DPU晶片,Azure Boost DPU旨在高效、低功耗地運行Azure資料中心的工作負載,將傳統伺服器的多個元件整合到一塊晶片中,並將高速乙太網路和PCIe 介面以及網路和儲存引擎、資料加速器和安全功能整合到一個完全可編程的系統單晶片中。微軟預計,未來配備DPU的Azure伺服器,將以現有伺服器四倍(400%)的效能運行儲存工作負載,同時功耗降低三倍。
中科駕馭數創辦人、CEO鄢貴海對鈦媒體App表示,這是DPU的應用方主動推動DPU進入規模化應用的標竿案例,對DPU後續更快速發展有利。 DPU 就是為智算與未來的高效能運算的特色來「客製化」的,而國內也正在逐步完善自主DPU、CPU、GPU等運算基礎設施,需立足於與自主的運算平台的融合發展,共同進步,並且讓“可用性”與“先進性”並重發展。
13億收購整合近兩年後,微軟推出首款DPU晶片
具體來說,DPU(Data Processing Unit)是面向以資料為中心的運算的新一代資料處理器,集完整的資料中心功能於單晶片,和CPU及GPU一起構成新型運算的三大支柱,用於處理某些資料處理任務,包括資料流量的安全性和網路路由。旨在協助減少與特定工作負載(包括AI工作負載)相關的核心運算任務對CPU 和其他晶片的負載。
通俗地講,如果把一台電腦或伺服器比作一個團隊,CPU相當於這個團隊的“大管家”,負責思考並處理各種業務;GPU是“美工”,專攻圖像處理;DPU則相當於“前台”,負責打包、拆包“資料包”,提升整個團隊的工作效率。
英偉達執行長黃仁勳曾指出,CPU、GPU 和DPU 將成為資料中心的基礎。在他的願景下,CPU 將負責一般處理,GPU 將為加速運算提供動力,而DPU 將管理資料流。
過去幾年,英偉達、AMD、Google、亞馬遜等企業都在自研DPU晶片。
其中,英偉達於2019年開始提供其BlueField系列DPU;AMD自2022年以來一直在銷售其Pensando DPU;亞馬遜AWS的Nitro 卡提供類似DPU 的功能;而谷歌則與英特爾合作開發可執行許多與DPU相同功能的晶片。
早在2022年12月底,微軟收購了前蘋果和瞻博網路工程師創立的公司DPU 製造商Fungible,總交易額約.9億美元(約13.76億元)。收購後,Fungible 團隊加入了微軟的基礎設施工程部門,因此,Azure Boost DPU 可能起源於該團隊。
分析師Dylan Patel曾表示,在交易之前,Fungible曾嘗試融資,但未能成功,並試圖將自己出售給Meta Platforms,「微軟考慮與Fungible合作設計晶片,但最終決定低價收購這家公司、員工和智慧財產權。
因此這意味著,微軟Azure Boost DPU 直接對標英偉達DPU,並且加上微軟定制CPU等,這將減少微軟對英偉達AI 伺服器晶片H100/A100的依賴。
「Azure Boost DPU 專為Azure 上的橫向擴展、可組合工作負載而設計,可為其雲端基礎設施提供跨儲存、網路、加速等方面的效率。」微軟表示。但微軟沒有透露更多的基礎測試訊息,也沒有提到Azure 客戶何時可以看到這些收益。
此外,微軟這次也宣布推出Azure內部雲端安全晶片HSM,Azure 容器應用程式無伺服器GPU 公開預覽版,和針對HPC 客戶及其應用程式的最新基於CPU 的虛擬機器Azure HBv5等。
- Azure 整合硬體安全模組(HSM)是一款全新的內部雲端安全晶片,它允許將簽署金鑰(基本上是數位加密簽章)和加密金鑰(用於加密資料的位元串)包含在安全模組中,而不會影響性能或增加延遲。微軟表示:「從明年開始,Azure Integrated HSM 將安裝在微軟資料中心的每台新伺服器上,以增強Azure 硬體叢集對機密和通用工作負載的保護。」Azure Integrated HSM 是微軟繼Pluton之後推出的第二款安全晶片,Pluton 是一款內建於英特爾、AMD 和高通處理器中的面向消費者的晶片。這也是該公司對其雲端競爭對手專有解決方案的回應:AWS 的Nitro 處理某些安全任務,而Google在Google雲端伺服器中內建了一個名為Titan 的安全晶片。
- 無伺服器GPU由NVIDIA A100 GPU和NVIDIA T4 GPU逆行加速,可輕鬆擴展並靈活地執行即時自訂模型推理和其他機器學習任務;
- HPC虛擬機Azure HBv5,針對運算流體動力學、汽車和航空航太模擬、天氣建模、能源研究、分子動力學、電腦輔助工程等領域進行最佳化,有四個處理器共同工作,提供近7 TB/ s 的記憶體頻寬,與最新的裸機和雲端替代方案相比,這高出8 倍,比Azure HBv3 和Azure HBv2(第三代EPYC和第二代EPYC Rome)高出近20倍,比接近硬體生命週期末期的4-5 年HPC 伺服器高出35 倍。
微軟表示,Azure Boost DPU 是其透過硬體創新增強基礎架構系列的最新成員。 “隨著我們不斷突破可能的界限,我們仍致力於提供創新,使我們的基礎設施更強大、更有效率、更具可擴展性,以滿足客戶不斷變化的需求。”
市場規模將近400億,AI正加速全球半導體市場
事實上,DPU帶來的效率提升對超大規模企業來說頗具吸引力,這些企業受AI 需求的推動,正在建造越來越大、耗電量越來越大的資料中心。微軟在2022年表示,由於其能耗不斷成長,其資料中心能源成本將增加8 億美元。
據Allied Analytics稱,到2031年,DPU晶片的市值可能達到55 億美元(約398.26億元人民幣),接近400億規模。
值得注意的是,國內也有很多新創公司在做DPU晶片產品,例如,中科取值、雲脈芯聯、星雲智聯、雲豹智能等。此外,阿里、百度、騰訊也近幾年針對自身伺服器進行自研與外購DPU,針對的主要功能在於數據,儲存與安全方面。
如今,AI 大模型使得算力需求的快速成長,而基於傳統IT架建構的軟硬體體系結構愈發無法滿足資料中心對大規模、高頻寬和低延遲的訴求,而全新的DPU技術,將引領資料中心從依賴單核心、單機算力的架構向分散式叢集計算的架構演進。
鄢貴海表示,大模型資料中心與傳統資料中心最大的差異之一就是互連網路的頻寬延遲要求都更高、以及相對扁平的拓樸結構。 DPU 正好是應對高頻寬低延遲,支援各種突發網路流量分發、大流量聚合的引擎,可以讓資料在各個運算節點間更有效率的流動,而無需CPU 的操作和乾擾。
「降低對單一供應商的依賴是商業上的慣常思維吧, 對於供應鏈可靠性和成本都有好處,無可厚非。但是DPU 還是屬於技術門檻比較高、週期比較長的產品,所以,英偉達、微軟等科技巨頭還是有一些天然的優勢的。的研發還是要立足於與自主的運算平台的融合發展,共同進步;同時也要吸收國際一線廠商在一些新的體系架構和應用支撐上的成功案例,把「可用性」與「先進性」並重發展。
IDG資本合夥人李驍軍曾表示,作為與CPU、GPU並列的大晶片,DPU推動資料中心基礎架構的革新,深耕DPU領域,不僅需要充分理解大規模雲端廠商的業務需求、定義架構特性,同時還要具備大晶片的工程實現能力。
“重大平台轉變即將到來”,微軟CEO薩蒂亞·納德拉(Satya Nadella) 在會上表示,Copilot是AI 的用戶界面,它正在迅速成為工作的組織層,並決定工作如何完成。 Copilot AI 平台將改變各個層級的人們有效和有效率的工作方式,AI Agent將是重點。
展望AI 的未來,納德拉指出,「AI的問題在於電腦根本不在乎,而我們卻在乎。在這一切快速變化中,我們始終堅守我們的使命,那就是讓地球上的每個人、每個組織都能取得更大的成就,利用這項技術為團隊和世界帶來改變。營運平衡(槓桿)。
納德拉強調,AI 技術技能將改變人們的生活,事實上,它已經改變了。