阿里雲首發CIPU處理器:這次要搶CPU的C位為OS反向自研
阿里硬件研發,又有大動作。剛剛,阿里雲正式對外發布全新處理器:CIPU。不僅架構全自研,還號稱要“替代CPU成為新一代云計算核心硬件”!雲計算搞了這麼些年,CPU在數據中心可一直還是牢牢佔據“C位”。就在去年,阿里還花大力氣推出了5nm的服務器CPU倚天710。這怎麼就突然要打破傳統了呢?
CIPU,這個比CPU多了一個I的新面孔,究竟什麼來頭?
CIPU究竟是什麼?
CIPU全稱Cloud Infrastructure Processing Units,意為雲基礎設施處理器。
從名字上就能看出,這是一顆雲端處理器,專門用於連接服務器內硬件和雲上虛擬化資源。
△CIPU架構圖
據阿里雲介紹,之所以用CIPU取代以CPU為核心的架構,就是為了更好地“壓榨”服務器硬件、獲取更多虛擬化資源,並讓已有的資源用起來更順手。
軟件上,CIPU接入飛天雲操作系統,更高效地完成虛擬化資源編排調度的工作;
硬件上,飛天操作系統通過CIPU能快速雲化管理數據中心物理設備,並對網絡和存儲硬件進行加速,這樣一來不僅不會再浪費CPU的算力,還能增強網絡和存儲性能。
從功能來說,它擁有四大特性:
- 雲原生最佳載體,即每個裸金屬系統能運行2000個容器,並用沙箱容器技術為容器提供更安全的隔離,鏈路啟動速度在50ms以內;
- 芯片直接實現IO引擎,其中存儲I/O操作每秒可進行300萬次,網絡I/O最高每秒5000萬個分組數據包,存儲長尾時延降低50%;
- 芯片級安全加固,即能高速卸載加密後的數據,將芯片級硬件的不可篡改性映射到軟件上;
- 增強型融合網絡,即在RDMA技術加持下,網絡延遲最低達到5微秒,帶寬最高能達到200GB。
從性能來說,它又給計算、存儲和網絡三類資源帶來了不少提升。
計算上,CIPU能快速接入不同類型資源的神龍雲服務器,單容器虛擬化消耗減少50%,啟動速度快350%。以運行部分數據庫和服務器為例,Nginx性能就提升了89%,Redis提升68%,MySQL提升60%,此外對於AI和大數據場景也有提升。
存儲上,CIPU能對存算分離架構的塊存儲接入進行硬件加速,存儲時延最低達到30微秒,帶寬最高200Gbps,支持雲上多計算節點NVME共享訪問雲盤塊存儲,Oracle RAC、SAP Hana等高可用數據庫無縫上雲。
網絡上,CIPU對高帶寬物理網絡進行了硬件加速,基礎帶寬達到200GB,並採用自研的RDMA-Solar協議,網絡時延降低至16us,相較自建物理機的集群吞吐量提升30%、業務高峰期延遲下降90%。
有意思的是,阿里雲這款CIPU處理器,其實已經在內部打磨好幾年了。
它最初的“靈感”,來自於阿里雲內部一個叫做神龍卡的設備。
神龍卡誕生於2017年,從功能上來講有點類似於AWS發布的一款名叫Nitro的平台(集成了虛擬機監視器、帶外管理等功能),甚至比AWS發布的時間更早一點。
經過了好幾輪迭代後,神龍卡逐漸加入了編排調度、硬件加速等更多能力,最終誕生了CIPU的雛形,隨後也在繼續完善這一款產品。
一方面,據阿里雲智能雲架構總監黃瑞瑞介紹,在這幾年裡,CIPU已經承受過像“雙十一”這種體量的性能&壓力“測試”了。
另一方面,有不少阿里雲的客戶,也或多或少已經使用過基於CIPU的雲計算服務。雖然客戶可能對底層硬件層沒有直接的感知,但阿里雲的網絡、存儲等性能,這幾年確實在不斷上升,例如,不久前阿里雲就成為國內唯一獲評全球十大計算機網絡研究機構的中國企業。
如今來看,CIPU的出現確實再次打破了雲計算的“瓶頸”,將整體性能提升了一大部分。
不過,要說推翻CPU在雲數據中心裡“C位”的想法,倒也不是阿里一家有之。
在市面上相似概念的產品裡,CIPU相比IPU、DPU來說,又究竟有什麼不同?
為什麼是CIPU
要說清楚這件事兒,還是得從雲計算技術的發展歷程說起。
過去十幾年來雲計算技術的發展,可以大體分為兩個階段。
第一階段,在分佈式技術的推動之下,互聯網企業開始將業務從大型機向分佈式系統遷移,打下了分佈式架構的底座。
第二階段,資源池化技術出現。這一技術通過計算存儲分離的架構,實現了對資源的統一調度編排,使得彈性計算成為可能。
對於用戶而言,這也就意味著雲計算可靠性和可用性的極大提升。
在這兩個階段,計算體系架構都是以CPU為核心的。
但當云計算發展到今天,以大數據應用為代表的數據密集型場景越來越多,這種以CPU為中心的架構便開始暴露短板:
首先,以CPU為中心的架構會導致計算和網絡傳輸之間的時延較大。
其次,大數據應用增多,導致數據中心內部數據遷移量增大,以CPU為中心的架構無法提供高帶寬。
再者,以阿里雲為例,其在全球27個國家和地區、84個可用區管理著上百萬台服務器。但以CPU為中心的架構很難解決這種超大規模基礎設施的複雜管理問題。
如此一來,解決之道也就指向了一個方向:打破以CPU為中心的傳統雲計算體系架構,定義新一代云計算基礎技術。
而這也正是如今各大廠商所追逐的最新技術熱點。
比如英偉達的DPU(Data Processing Units),2020年10月一經發布,便在業界引發熱議。
顧名思義,DPU側重解決的是數據遷移帶寬的問題。作為集成加速平台,DPU能夠從CPU上卸載關鍵的網絡、存儲和安全任務,降低CPU的開銷。
老黃當時表示:
數據中心已成為新型計算單元,而DPU是其重要的組成部分。CPU、GPU和DPU的結合,可構成完全可編程的單一AI計算單元,提供前所未有的安全性和算力。
而英特爾也緊隨其後,提出了“IPU”(Infrastructure Processing Units)的概念。
相比於DPU,IPU更強調虛擬化雲化能力,通過網絡虛擬化、存儲虛擬化、網絡存儲管理以及安全等功能,加速網絡基礎設施,釋放CPU核來提高應用程序性能。
儘管在概念上有些許區分,但無論是DPU還是IPU,都是想通過軟件定義+硬件加速的方式,替代CPU成為數據中心的核心硬件。
由此也可以看出,阿里雲此番推出的CIPU,更像是IPU和DPU的綜合體,既能雲化虛擬化管控數據中心,又能解決數據遷移帶寬的問題。
而更大的區別在於,阿里雲本身就是一家云廠商,還是有飛天雲操作系統的那一種。
這就意味著,與英偉達、英特爾這樣的硬件廠商不同,阿里雲對於雲計算技術發展各個階段所面臨的問題,有更為切身的體會。
前文提到,CIPU是一顆專門為飛天系統設計的處理器。也就是說,它從設計之初,就是貼合雲計算行業痛點、結合飛天系統特點去做的。
這樣的軟硬一體化,一方面,既能通過硬件提供高性能,又能通過軟件提供靈活性。
另一方面,從一開始就避免了適配性的問題,能通過1+1>2的方式,做到更強的性能、更低的價格、更高的穩定性。
自主研發的雲計算
如此看來,最先享受到這波技術發展紅利的,就是雲上用戶們——
雲計算能做到更高的性價比了。
而作為CIPU背後的雲廠商,阿里雲此番技術發布,也扣上了雲計算技術國產化在新階段的重要一環。
以阿里云自身為例:
2009年,阿里云自研雲計算操作系統飛天誕生。雙11、12306春運購票等大家津津樂道的極限並發場景,都跑在這個系統之上。
2017年,為了解決服務器虛擬化性能損耗的問題,阿里云自主研發了神龍架構(就是上文提到的神龍卡),通過把虛擬化轉移到專用硬件中進行加速,實現了性能“0損耗”。
在雲存儲技術方面,阿里云自研的盤古分佈式存儲系統,推動了面向數據中心ZNS SSD國際標準的發展。與西部數據(WD)共同提出的NVMe2.0,是目前云計算業內最為先進的軟硬一體深度融合的分佈式存儲系統。
去年,阿里雲還發布了首款CPU倚天710,刷新了Arm服務器芯片性能紀錄。
從網絡到存儲,從軟件到硬件,通過13年的技術積累、自主研發,阿里云作為國內云廠商的代表,正在世界雲計算的舞台上發出越來越高的聲量。
而CIPU的推出,則意味著這種在技術自主化方面的努力,或許已更進一步:
嘗試打破海外雲廠商、硬件廠商定義的傳統發展路線,走出一條自己的新路。
每當技術發展到一個更新換代的新階段,圍繞話語權的競爭往往精彩不斷,影響更甚於科技圈本身。
5G如是,雲技術亦如是。
好戲或許才剛剛開場。
來源:量子位