超算芯片霸主之爭,終於有了新變數
2020年4月,以近70億美元被英偉達最終收購的以色列頂級數據中心網絡技術公司Mellanox,在長達半年多的“沉默”後,在11月迎來了兩件足以引起業內轟動的大事。首先,陪Mellanox走了21年,並一手促成這筆交易的創始人兼首席執行官Eyal Waldman宣布離職,並留下了一句頗為瀟灑的話:
“在達成這筆交易時,我就知道我要離開了。你知道我用幾十年創建一家公司並做出所有決策,不是用來做第二名的。”
其次,就在今天,Mellanox作為英偉達GPU家族的一部分,被英偉達融入了新的網絡連接架構產品——NVIDIA Mellanox 400G InfiniBand。
此後,它將以“GPU伴侶”的身份,率先打入數據中心市場的最精銳部隊——超級計算機市場。
NVIDIA Mellanox 400G InfiniBand產品的架構組成。簡單來說,就是一個用以連接其他服務器與英偉達產品的組件
英偉達在今天的全球超級計算大會上,再次刷新了自己最強大GPU產品線——企業級加速器A100的性能紀錄。
新一代的A100 GPU將高帶寬內存提升至80GB,比上一代擴大一倍。這意味著,每秒超過2TB的內存帶寬,會讓數據在內存與GPU之間流通得更加迅速,以便“承受”研究人員建立更大規模人工智能模型和數據集帶來的壓力。
“現在要在AI和高性能計算(HPC)的研究成果上繼續突破上限,科學家們必須要構建更大更複雜的模型,那麼便需要比以往更大的內存容量與更高的帶寬。” 英偉達應用深度學習研究副總裁Bryan Catanzaro指出。
英偉達在英國劍橋的超算中心部署了由若干塊A10080GB組成的DGX系統
實際上,除了改變芯片產品的架構,把成百上千塊芯片用最高效的形式“連”起來,當然也能解決科學家們每秒/百億億次的超大計算需求,而收購的Mellanox的用意便在於此。
如果你見過位於無錫的中國超級計算機“太湖之光”,就會發現“這台計算機”其實是一個由成百上千台黑色機櫃組成的計算機集群,可以填滿一間約1000平米的屋子。
它既可以被稱為“高性能計算機群”,也可以被看做是一個不小規模的數據中心。
當然,這些黑色機櫃的性能,要比普通服務器強大太多,由4萬多塊不同種類的國產芯片組成,僅集成它們就是一項極為艱鉅的任務,用時兩年,總投入超過了18億人民幣。
位於無錫超算中心的太湖之光
而NVIDIA Mellanox 400G InfiniBand的作用,便是將超級計算機中上萬塊CPU、GPU以及其他種類芯片“連接”在一起。在發揮性能最大化的同時,每塊芯片的數據傳輸效率也不能有太多損耗。
“之前CPU與GPU之間的互聯,都是通過英偉達的NVlinks(一種總線及其通信協議),但這個東西互聯的效率沒有特別好,不能簡單擴展到上千塊芯片互聯的超算場景。 ”參與研發過TPU,芯英科技聯合創始人楊龔軼凡告訴虎嗅,Mellanox擅長的便是此前英偉達最大的短板之一,
“一台超級計算機,各品牌芯片之間的高效配合,極為重要。之前英偉達的NVlinks只能和IBM的CPU互聯。而收購Mellanox後,英偉達增強了用芯片構建超算系統的可擴展性,可以讓GPU與其他品牌和種類的芯片進行連接。”
換句話說,英偉達找到了“讓自己產品輕鬆插進包括英特爾在內,所有服務器芯片接口”的方法。
超算市場,不可忽視的芯片掘金地
英偉達的這次全系列產品,無一例外面向的都是“燒錢魔窟”——超級計算機市場。
舉個例子,在2020年6月頒布的全球超級計算機Top500榜單上,排名第二的美國橡樹嶺國家實驗室超級計算機Summit,在每個節點配備了2個IBM的Power9 CPU和6個英偉達的Tesla V100。這樣的節點有4356個,總耗資2億美元。
而在2019年3月,美國能源部阿貢實驗室公開宣布,將耗資5億美元搭建新一代超級計算機Aurora 。這台將在2021年實現交付的超級計算機,並非追求一味追求計算速度,而是需要針對人工智能等新技術應用採用新的設計思路。
那麼這筆巨額政府合同的主要受益者是誰?外界猜測是美國最大的CPU生產商英特爾與著名超算系統集成商Cray。
但不可忽視的是,隨著超算系統被用在人工智能研究領域的次數越來越多,額外裝載的加速芯片GPU,逐漸成為搭建超級計算機的必選品。
因此,英偉達也在全球許多超算項目中獲得了頗為豐厚的收益,包括美國技術最強大的國家實驗室——橡樹嶺實驗室、阿貢實驗室,都是英偉達最好性能產品的首批嚐鮮者。
美國迄今最強的超級計算機Summit(巔峰),在最新的Top500榜單中排名第2。
超級計算機之間的競爭,從來都被看作是國家之間技術實力的競爭。
儘管這是一個狹隘的衡量標準,但這些超級計算機群的確在很多軍事與科學任務中發揮著極為重要的作用,譬如武器設計與密碼破譯,再譬如模擬氣候變化,研究與診斷新冠病毒。
很多前所未有的材料與化學實驗,不太可能在雲端執行,因此部署高性能服務器便顯得格外重要。
“沒有人願意燒很多錢去做一些幾十年沒成果的新技術研究,但是這些研究卻很有必要,那麼這些新技術的運算就需要超級計算機來支持。”一位業內人士告訴虎嗅。
而這場競爭中,中國與美國理所當然是最為強勁的參賽選手,也是最願意砸錢做超算系統的兩個科技大國。
2020年6月,儘管Top500的榜首之位,被日本神戶理研計算中心耗資10億美元的超算系統Fugaku奪走,但在這500個超級計算機中,中國擁有其中226個系統,而美國則佔據114個。
2020年6月最新榜單的前10名。在2016年~2017年蟬聯4次冠軍的中國超級計算機太湖之光位於第四名,天河二號第五名。
因此,如果按照每台超級計算機單價上億美元來計算,這是一個令人垂涎的市場。而政府一次又一次創下記錄的巨額訂單,對商業公司產生著越來越大的吸引力;
此外,毫無疑問,由於超級計算機運行的都是難度最高的技術研發任務,它們的存在,是未來技術下沉到工業和消費級市場的源動力。
國家之間的超級計算機之戰從幾十年前就已打響。一開始,大多數超級計算機使用的微處理器都是從英特爾和AMD的PC芯片演變而來,然而,就是在過去5年裡,數據量開始如爆炸般增長,新技術應用層出不窮,因此最強大的超級計算機已經開始加大專業芯片的使用力度,而英偉達,便是最大的受益者之一。
從圖中可以看出,2020年~2025年產生的數據量,是2010~2020年數據量的三倍。圖片來自英偉達。
不過有意思的是,日本Fugaku打敗中國和美國最強計算機的“源動力”,竟然是富士通的48核A64FX SoC,這應該是榜單上第一個由ARM處理器提供動力的超算系統(雖然不想把英偉達和ARM的收購聯繫起來,但這好歹是個開始)。
“未來超算市場,目前現在的共識是HPC+AI。也就是說,未來AI是超算的典型應用,而且量級很大。所以英偉達,想要作為未來霸主,保持在這個市場的領先地位。當然,高性能計算市場,一切都沒那麼容易。”