Intel 10nm十代酷睿改造轉戰M.2:神經網絡推理
Intel 10nm Ice Lake十代酷睿處理器已經上市,但它可不僅僅會用於輕薄筆記本,未來還會登陸服務器,而在兩個月前以色列海法(Intel重要研發基地),Intel還展示了一款基於10nm Ice Lake打造的Nervana NNP-I(神經網絡推理處理器),但採用了M.2樣式。
訪問購買頁面:
Hot Chips 31芯片大會上,Intel首次公佈了這款特殊產品的架構細節。
這是10nm Ice Lake十代酷睿處理器
這是基於Ice Lake改造的M.2 NNP-I
在無處不AI(AI Everywhere)的指導思想下,Intel正在研究各種各樣的AI軟硬件方案,包括CPU、GPU、FPGA、ASIC等等。
這款新的NNP-I代號為“Spring Hill”(溫泉山丘),面向數據中心領域的輕度AI推理工作,能做成M.2擴展卡正是得益於10nm芯片的超小面積。
在原有10nm Ice Lake處理器的基礎上,Intel拿掉了兩個CPU計算核心、GPU核芯顯卡,同時加入12個推理計算引擎(ICE),彼此基於硬件同步,同時每個ICE有自己的4MB SRAM緩存來減少數據轉移,並且和兩個CPU核心共享一致性互連、24MB三級緩存。
Intel還設計了一個深度學習計算網格(DL Compute Grid),作為張量引擎的它通過數據和控制總線與SRAM、VP6 DSP互連,支持FP16、INT8、INT4、INT2、INT1等類型操作,其中DSP還可以處理一些特殊的算法。
CPU核心仍然是標準的Sunny Cove架構,支持AVX-512、VNNI指令集,可加速卷積神經網絡,而完全繼承的FIVR電壓調節器可動態調整功耗,優先滿足最需要的硬件單元。
內置兩個LPDDR4X內存控制器,整合封裝一顆內存芯片與之配合,傳輸帶寬4.2GT/s(68GB/s),並支持帶內ECC,但容量未公佈。
NNP-I與系統的通信通道走的是PCIe 3.0 x4或者PCIe 3.0 x8,帶寬不是事兒,但沒有用NVMe協議,只是標準的PCIe界面。
TDP功耗非常靈活,低可至10W,高可達50W,完全視性能需要而定,作為擴展卡也不受M.2 15W的限制。根據不同功耗配置,INT8整數能效在2-4.8TOP/s範圍內。
Intel表示,10W TDP功耗下跑ResNet500,每分鐘推理數可達3600,等於效率高達4.8TOP/s,還是相當高的。
軟件方面,Intel會提供相應的開發工具,幫助負載將推理工作完全轉移到加速器上,完成後再通知至強CPU進行下一步處理,從而使得至強CPU不再需要通過PCIe總線和其他加速器彼此通信、轉移數據,大大節省計算資源和功耗。
Intel NNP-I目前已經試產,將在年底投入規模量產並出貨,而且後續還有兩代新品正在設計中……