Intel 10nm十代酷睿改造轉戰M.2：神經網絡推理

Intel 10nm Ice Lake十代酷睿處理器已經上市，但它可不僅僅會用於輕薄筆記本，未來還會登陸服務器，而在兩個月前以色列海法(Intel重要研發基地)，Intel還展示了一款基於10nm Ice Lake打造的Nervana NNP-I(神經網絡推理處理器)，但採用了M.2樣式。

訪問購買頁面:

英特爾旗艦店

Hot Chips 31芯片大會上，Intel首次公佈了這款特殊產品的架構細節。

這是10nm Ice Lake十代酷睿處理器

這是基於Ice Lake改造的M.2 NNP-I

在無處不AI(AI Everywhere)的指導思想下，Intel正在研究各種各樣的AI軟硬件方案，包括CPU、GPU、FPGA、ASIC等等。

這款新的NNP-I代號為“Spring Hill”(溫泉山丘)，面向數據中心領域的輕度AI推理工作，能做成M.2擴展卡正是得益於10nm芯片的超小面積。

在原有10nm Ice Lake處理器的基礎上，Intel拿掉了兩個CPU計算核心、GPU核芯顯卡，同時加入12個推理計算引擎(ICE)，彼此基於硬件同步，同時每個ICE有自己的4MB SRAM緩存來減少數據轉移，並且和兩個CPU核心共享一致性互連、24MB三級緩存。

Intel還設計了一個深度學習計算網格(DL Compute Grid)，作為張量引擎的它通過數據和控制總線與SRAM、VP6 DSP互連，支持FP16、INT8、INT4、INT2、INT1等類型操作，其中DSP還可以處理一些特殊的算法。

CPU核心仍然是標準的Sunny Cove架構，支持AVX-512、VNNI指令集，可加速卷積神經網絡，而完全繼承的FIVR電壓調節器可動態調整功耗，優先滿足最需要的硬件單元。

內置兩個LPDDR4X內存控制器，整合封裝一顆內存芯片與之配合，傳輸帶寬4.2GT/s(68GB/s)，並支持帶內ECC，但容量未公佈。

NNP-I與系統的通信通道走的是PCIe 3.0 x4或者PCIe 3.0 x8，帶寬不是事兒，但沒有用NVMe協議，只是標準的PCIe界面。

TDP功耗非常靈活，低可至10W，高可達50W，完全視性能需要而定，作為擴展卡也不受M.2 15W的限制。根據不同功耗配置，INT8整數能效在2-4.8TOP/s範圍內。

Intel表示，10W TDP功耗下跑ResNet500，每分鐘推理數可達3600，等於效率高達4.8TOP/s，還是相當高的。

軟件方面，Intel會提供相應的開發工具，幫助負載將推理工作完全轉移到加速器上，完成後再通知至強CPU進行下一步處理，從而使得至強CPU不再需要通過PCIe總線和其他加速器彼此通信、轉移數據，大大節省計算資源和功耗。

Intel NNP-I目前已經試產，將在年底投入規模量產並出貨，而且後續還有兩代新品正在設計中……

WONGCW 網誌