Locuza詳解英特爾Sapphire Rapids的多芯片互連設計
英特爾即將推出代號為“Sapphire Rapids”的企業級至強可擴展處理器,且其核心數有望高達60 。有趣的是,在ISSCC 2022 的演示文稿中,英特爾已分享過分辨立案率的芯片圖。可知如此多的核心,是通過EMIB 互連的四個裸片實現的。

不過為了幫助大家更好的了解其功能結構,熱心的@Locuza 等網友,還是認真地給原圖添加了詳細的註釋。
可知Sapphire Rapids 芯片中的每四個Tile,都是一組成熟的多核處理器,包含了CPU 內核、集成的北橋、內存、PCIe 接口,以及平台所需的其它IO 。

而將4-Tiles 結合到一起的,則是一共五組EMIB 橋接器。這使得裸片中的CPU 內核能夠透明地訪問I/O,以及透明地控制任何其它裸片的存儲。
從邏輯上來講,英特爾Sapphire Rapids 與競爭對手AMD的Naples 大同小異,後者使用了Infinity Fabric over package(IFOP)來互連四組8 核心的Zeppelin 芯片。

不過這裡的努力,似乎是為了最大限度地減少一種封裝互連,轉向基於矽橋的高帶寬、低延遲方案,且它們之間有著高密度的微觀佈線(類似於中介層)。
每個芯片的平面圖,和過去幾代的英特爾企業級處理器也非常相似。該公司擅長使用Mesh 互連,並將各種IP 塊放置在環形總線的網格中。

網狀網絡是環形總線和全點對點互連的中間地帶,網格中的每個單獨組件都可稱作瓦片(Tile)。
每Tile 集成了15 個Golden Cove 高性能CPU 核心(P 核),輔以2MB L2 專用緩存+ 1.875MB 的末級緩存切片,而28.125MB 的L3 緩存則由60 個核心所共享(總緩存達到112.5 MB)。

每個芯片還具有一個內存控制器塊,帶有128-bit DDR5 物理層(包含ECC 就是160-bit)。該接口可控制雙DDR5 通道,相當於四組@ 40-bit 子通道。
封裝中共支持8 個DDR5 通道(16 個子通道),且Sapphire Rapids 的PCIe / CXL 接口規模異常龐大,每個裸片都有一個PCI-Express Gen 5 + CXL 1.1 根複合體(具有32 個通道/ 128 條PCIe 5.0 或CXL 1.1 通道)。

至於加速器瓦片,則包含了英特爾的數據流加速器(DSA)、快速輔助技術(QAT)、以及DLBoost 2.0(可用於加速深度學習神經網絡構建和訓練的硬件組件)。
最後一塊瓦片包含了24x UPI 連接,可用於插槽之間的互連。四組核心中都包含了這個,意味著Sapphire Rapids 芯片最可組建8 路計算平台。