最強AI訓練集群華為Atlas 900首次在AI超算領域應用
兩個月前的全聯接大會上,華為發布了目前全球最快的訓練集群Atlas 900。不過,設計和製造出強大的硬件對於硬件提供商而言並非最困難的事情,能否將其應用於不同領域體現出其價值才是成功的標誌。本週五,鵬程實驗室聯合華為在深圳發布鵬城雲腦Ⅱ基本型系統發布會,這是Atlas 900第一個外部應用案例。
這不僅代表著華為鯤鵬和昇騰雙引擎計算戰略的向前邁進,也是華為在5G+AI時代能否保持領先的關鍵。
Atlas 900落地鵬城雲腦Ⅱ
Atlas 900由數千顆昇騰910 AI處理器互聯構成,每顆昇騰910 AI處理器內置32個達芬奇AI Core,單芯片提供比業界高一倍的算力(256TFLOPS@FP16),總算力可達到256P~1024P FLOPS @FP16。Atlas 900發佈時,華為給出的數據是在Fastest cluster ResNst-50@ImageNet測試中,華為成績為59.8秒,比第二名70.2秒的成績高出了10秒多。
峰值算力和測試成績是判斷硬件性能很好地指標,但實際中的應用效果更為關鍵。在Atlas 900發布之時,華為就介紹其聯合上海天文台與SKA共同打造的,一張南半球的星空圖有20萬顆星星,當前條件下,天文學家要從這20萬顆星星中,找出某種特徵的星體,相當困難,需要169天的工作量。用上Atlas 900,只用10秒,就從20萬顆星星中檢索出了相應特徵的星體。時間從169天縮減到10秒就是Atlas 900實際應用效果最直觀地說明。
另外,全聯接大會上,中國工程院院士、鵬城實驗室主任高文院士也分享了鵬城實驗室基於華為Atlas 900集群打造鵬城雲腦Ⅱ的平台規劃。兩個月之後的2019年11月29日,鵬城雲腦Ⅱ基本型系統正式發布。高文院士介紹,鵬城雲腦Ⅱ原型系統實現了100 PFLOPS的算力,併計劃到明年底擴展至1000 PFLOPS級AI算力。
據悉,雙方目前正在聯合攻堅AI集群的規模進化以及AI功能的進化,解決散熱、組網等影響集群擴展的關鍵問題,為實現明年1000 PFLOPS級AI算力。
1000PFLOPS是個什麼概念?2019 年6月開始,超算TOP500 的入門門檻超過1PFLOPS(每秒一千萬億次浮點運算),這是全球超算TOP500 榜單26 年以來的又一歷史性突破。根據TOP500本月發布的最新一期超算排行,排名第一的美國超算Summit(頂點)的性能為148.6 PFLOPS。接下來,超算的競賽將進入Exascale計算(百萬兆級的計算,也可稱E級超算)時代,也就是1000PFLOPS級。
不過,以Atlas 900為基礎的鵬城雲腦Ⅱ是AI計算集群,雖然性能將達到E級,但主要是面向AI計算,與TOP500的超算系統還有所區別。
需要補充的是,鵬城雲腦是鵬程實驗室的人工智能開放開源平台,鵬城雲腦面向全國,為人工智能基礎研究和應用基礎研究提供多層次、多樣化的資源環境支撐,服務我國人工智能領域創新發展。此前的2018年一期工程中,鵬城雲腦初步建成上線運行了以“鵬城雲腦-1”為核心的P級計算系統。
在鵬城雲腦Ⅱ原型系統發布的當天,鵬城實驗室與深圳市政府就一系列重大項目簽約,向衛生健康、公安交警、巴士交通、政務等場景提供鵬城雲腦強大的AI算力,支撐市政重大項目智慧升級。
不斷進化、動態升級的鵬城雲腦還將持續向國內外的科研機構、高等院校等組織提供雲端AI算力,充分發揮華為Atlas 900集群的優勢,搭好科學研究和探索的地基。
華為高級副總裁、Cloud & AI產品與服務總裁侯金龍(左)與鵬城實驗室主任高文(右)出席鵬城雲腦Ⅱ發布會
Atlas 900與華為5G+AI的未來
至此,Atlas 900已經在內部和外部都已經落地,但其可以更多地應用於科學研究與商業創新,如天文探索、氣象預測、自動駕駛、石油勘探等領域。並且在實際應用中享受到高算力帶來的優勢。
做一個簡單的對比,要實現256 PFLOPS的算力,經測算如果使用通用CPU需要6195個機櫃,使用GPU需要208個機櫃。而基於昇騰架構對深度學習業務的優化,以及芯片優化之外增加的如板級液冷、櫃級密閉絕熱等系統級優化, Atlas 900集群使用16個機櫃就能實現256 PFLOPS的算力,並且將功耗從40000千瓦降低至736千瓦,實現更高性價比。
當然,將Atlas 900中既有昇騰系列AI處理器,也有鯤鵬系列CPU。華為在全聯接大會上推出了鯤鵬和昇騰雙引擎的計算戰略。華為技術有限公司Cloud&AI產品與服務總裁侯金龍近日接受媒體採訪時表示:“這兩個計算引擎將會應用於向各個行業,我們認為AI+5G+雲會使能各個行業,使各個行業進入智能時代。目前除了鵬城實驗室的鵬城雲腦外,金融、智慧城市、電力、交通、互聯網等行業都採用了鯤鵬和昇騰這兩個計算引擎。”
還需指出的是,硬件生態的強大還需要軟件生態的協同,英特爾和英偉達在高性能計算領域的成功就是很好地例子。因此,在近一年的時間裡,華為相繼推出訓練和推理框架MindSpore、芯片算子庫和高度自動化算子開發工具CANN、一站式AI開發管理平台ModelArts。並且這些軟件和硬件覆蓋了雲、邊、端。
不僅如此,華為還計劃打造強大的生態。侯金龍介紹,計算產業的核心就是開發者生態,華為計劃在未來三年會投資15億美元發展開發生態。希望和各個高校一起,基於鯤鵬和昇騰的計算架構體系聯合各個高校開發教材,讓學生至少可以學習我們這個體系。
他還透露,明年2月份鵬城雲腦和華為會舉辦一個開發者大會,規模將超過兩萬人。
對於任何一家芯片提供商而言,設計出性能和功耗都具有優勢的芯片只是邁向成功的第一步,只有獲得用戶的認可並且持續迭代芯片才能視為芯片的成功。對於華為而且,基於其技術和客戶的積累,推出新的硬件更容易獲得應用,所以我們看到Atlas 900發布兩個月後就已經有兩個應用案例。但正如Atlas 900是一個複雜的系統一樣,華為要在5G和AI的時代勝出,除了硬件,強大的軟件和開發者生態都至關重要,我們也看到了華為在這些方面的投入。至於結果會如何,我們將保持關注。