阿里首款AI芯片“含光800”重磅發布全球最強AI推理芯片如何練成?
上週,平頭哥以產品命名猜想為話題預告本週將發布重磅新品。2019年杭州雲棲大會上,阿里巴巴集團首席技術官兼阿里雲智能總裁張建鋒發布了阿里的首款AI芯片含光800,該芯片是一款雲端AI芯片,也是全球最高性能的AI推理芯片。含光800主要應用於視覺場景,已經在阿里巴巴集團內多個場景大規模應用,其它企業可以通過阿里雲獲得含光NPU的算力。
阿里巴巴集團首席技術官兼阿里雲智能總裁張建鋒
據悉,含光為上古三大神劍之一,該劍含而不露,光而不耀,正如含光800帶來的無形卻強勁的算力。
含光800為何能打破記錄?
根據張建鋒的說法,在業界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
含光800不僅Resnet50的成績打破記錄,從設計到商用的速度也很快。張建鋒表示,平頭哥用大概一年半的時間實現了含光800從設計到商用。平頭哥用7個月完成了前端設計,之後用3個月就成功流片。僅成立一年的平頭哥半導體為何這麼快就能設計出雲端AI芯片?
要知道,芯片作為典型的長周期產品,想加速芯片的商用,在硬件和軟件方面都需要有很強的實力,特別是在AI時代,軟硬一體化的重要性更加突顯。平頭哥就得益於阿里在軟硬件方面的積累,算法方面,阿里巴巴達摩院機器智能實驗室過去兩年構建了完整的算法體系,涵蓋語音智能、語言技術、機器視覺、決策智能等方向,並且取得多個世界領先水平的成果;硬件方面,阿里巴巴此前已在服務器、FPGA以及存儲等領域擁有多年研發經驗,此外,平頭哥團隊在體系結構、編譯技術等領域擁有深厚的技術儲備。
含光800性能的突破得益於軟硬件的協同創新,芯片架構方面,含光800採用創新的架構,針對深度學習中使用的大量權重參數和張量數據,在支持稀疏壓縮與量化處理的基礎上,通過獨特設計的數據訪存與流水線處理技術,大大減低了I/O需求和數據的搬移。NPU同時深度優化了卷積,矩陣乘,向量計算和各種激活函數,通過高有效的硬件資源調度和全並行的數據流處理,把AI運算的性能和能效都推向極致。
其中,性能的提升必須解決內存牆問題。所謂的內存牆,是指採用採用馮諾依曼結構的處理器,存儲和運算處理分離,當進行深度神經網絡處理時,算力得到了提升,但大量讀寫運行操作會受到帶寬限制,芯片的整體性能提升也同時受到限制。
平頭哥的做法是通過自研架構大幅減少對內存的訪問,在保證性能的情況下,把芯片功耗降到最低水平。具體而言,含光800會根據神經網絡推理運算特徵,設計特定的硬件、高速連接的存儲結構以及專用指令集,對內存和計算單元實現高效組織管理,實現單條指令完成多個操作,提高計算效率和內存訪問效率。
3個月發3款芯片新品,阿里“硬”了
阿里首款AI芯片發布之後,其從雲端到終端的產品佈局已經十分明確。這些產品也都密集在最近幾個月發布,今年7月的阿里雲上海峰會上,阿里巴巴集團副總裁戚肖寧發布了高性能RISC-V架構處理器玄鐵910。玄鐵910集成16個核心,主頻2.5GHz,採用12級亂序流水線,最大支持8MB二級緩存,搭載AI增強的向量計算引擎,可用在人工智能加速器、網絡通信和自動駕駛等領域。現場公佈的數據顯示,玄鐵910較業界主流芯片性能提高40%,較標準指令性能高出20%。
8月,平頭哥又發布SoC芯片平台“無劍”,無劍平台由SoC架構、處理器、各類IP、操作系統、軟件驅動和開發工具等模塊構成,面向AIoT提供的集芯片架構、基礎軟件、算法與開發工具於一體的整體解決方案。根據官方的說法,無劍能夠幫助芯片設計企業將設計成本降低50%,設計週期壓縮50%。
需要指出,7月發布的玄鐵910是基礎單元處理器IP,無劍是芯片設計平台,所以含光800是阿里的首款AI芯片。這也意味著,阿里的C-Sky系列、玄鐵系列AIoT終端芯片IP,一站式芯片設計平台無劍,以及最新發布的雲端AI芯片構建了阿里端雲一體的芯片生態,平頭哥端雲一體全棧芯片產品家族雛形已現。
更值得關注的是,端側的7款C-Sky系列嵌入式CPU IP核已得到大規模量產驗證,授權客戶超100家,累計銷售超十億顆,應用於機器視覺、工業控制、車載終端、移動通信和信息安全等領域。
RISC-V架構的玄鐵處理器以及無劍SoC平台也已有客戶,包括人工智能企業雲天勵飛、老牌芯片公司炬芯科技等。
含光800也已經實現了大規模應用,應用於阿里巴巴集團內多個場景,例如視頻圖像識別/分類/搜索、城市大腦等,未來還可應用於醫療影像、自動駕駛等領域。同時,阿里云作為全球前三的雲服務提供商,含光的能力將通過雲服務對外提供。張建鋒現場宣布,基於含光800的AI雲服務也正式上線。
另外,在生態建設方面,平頭哥還將成立芯片開放社區。
不僅如此,平頭哥還在研髮用於阿里雲神龍服務器的SoC專用芯片。未來,阿里還將進一步完善產品形態,推出包括雲端AI訓練芯片和終端AI推理芯片,滿足更多場景的算力需。
自研AI芯片的終極目的是什麼?
阿里從雲端到終端AI芯片的佈局已經明確,並且也已經有不少客戶,這是否意味未來阿里不僅不需要購買芯片,還可能替代其它芯片公司?答案是否定的。在這一輪的AI浪潮中,我們看到無論是國外的谷歌、Amazon、Facebook還是國內的阿里,這些強於軟件的科技巨頭們都在積極研發AI芯片。
至於其中的原因,Cadence首席執行官、華登國際創始人陳立武此前接受采訪時表示:“科技巨頭積極佈局AI是因為他們不希望落後,因為他們都有大量的數據。當然,科技公司開始做芯片並不意味著傳統的芯片廠商會被取代,科技公司希望在一些應用上用自主研發的芯片來提升效率。”
事實也確實如此,就拿阿里來說,其業務橫跨電商、金融、物流、雲計算、大數據、全球化等場景,用戶規模龐大,對算力的需求更高,挑戰也更大。傳統CPU、GPU和FPGA難以滿足所有需求,並且面臨成本和功耗挑戰。定制化的ASIC芯片能夠實現更高的性能同時兼具更低功耗,因此科技巨頭們基於對自身業務和需求的了解,紛紛開始自主研發AI芯片,希望在保持領先性的同時,降低整體計算成本。
從全球範圍看,谷歌TPU是全球科技企業從軟變硬的代表。此次含光800的發布及商用,表明阿里的優勢也不再只是在軟件領域,在AI芯片的加持下,未來阿里的優勢也將是軟硬一體的優勢。
為了實現這一目標,阿里幾年前就開始了佈局。2017年雲棲大會上,阿里成立達摩院,這是阿里在全球多點設立的科研機構,立足基礎科學、顛覆性技術和應用技術的研究。達摩院由全球建設的自主研究中心、高校聯合實驗室,全球開放研究計劃三大部分組成,涵蓋量子計算、機器學習、基礎算法、網絡安全、視覺計算、自然語言處理、下一代人機交互、芯片技術、傳感器技術、嵌入式系統等,涵蓋機器智能、智聯網、金融科技等多個產業領域。
平頭哥得到達摩院和阿里雲的軟實力加持,基於達摩院的算法能力,才能打破了算法和硬件之間的鴻溝,基於阿里雲飛天雲平台的優勢,得以快速形成了端雲一體芯片生態。
如今,阿里自主研發芯片的目標也已經部分達成。根據云棲大會的現場演示,在城市大腦中實時處理杭州主城區交通視頻,需要40顆傳統GPU,延時為300ms,使用含光800僅需4顆,延時降至150ms。拍立淘商品庫每天新增10億商品圖片,使用傳統GPU算力識別需要1小時,使用含光800後可縮減至5分鐘。
顯然,平頭哥的目的並非是賣芯片,平頭哥還會延續了母體阿里巴巴集團“讓天下沒有難做生意”的願景,開闢了全新的商業模式,即平頭哥模式(以無劍平台為核心),為企業提供普惠算力。
另據介紹,針對AIoT市場有強應用驅動和場景碎片化等特點,芯片公司按照傳統的方式設計芯片很難去適應未來的需求,平頭哥希望通過端雲一體芯片生態為各行業提供普惠算力。
張建鋒說:“在全球芯片領域,阿里巴巴是一個新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走。”
小結
作為科技巨頭,阿里此前更加擅長軟件,並且擁有大量的數據。在正在到來的以數據為中心的時代,能夠借助AI更快挖掘出數據的價值將成為科技巨頭們繼續保持領先優勢的關鍵之一。因此,無論是國外還是國內,科技巨頭們紛紛開始投入巨大的資源進入技術、資金、人才都非常密集的芯片產業,阿里首款AI芯片的推出,意味著阿里已經不再只擅長軟件,在其廣泛的應用場景需求的支撐下,阿里將能夠實現硬件的快速迭代的完善,在雲端和終端進一步釋放出軟硬結合的優勢。