5種工藝、1000+億晶體管 Intel Xe HPC頂級計算卡秀肌肉

2021-08-20 Comments 0 Comment

我們知道，Intel Xe GPU架構分為四個層級，或者說四種微架構，其中以上是的Xe LP低功耗版僅供核顯、入門獨顯，即將到來的Xe HPG高性能圖形版面向中高端遊戲顯卡，Xe HP高性能版適合加速計算、AI、ML等但所知最少，Xe HPC高性能計算版則是最頂級的存在，主攻大型數據中心、超算。

Xe HPG微架構的Alchmest（DG2）之前已經聊過了，這裡來看看Xe HPC和首款產品Ponte Vecchio，競爭對手是NVIDIA A系列、AMD Instinct系列。

當然，它們距離普通人非常非常遙遠，但卻是技術實力的最高體現。

Xe HPC架構的基礎也是Xe核心（Xe Core），但因為面向的是計算而非圖形，內部結構有所不同，包括8個512-bit向量引擎、8個4096-bit矩陣引擎，數量對比Xe HPG都減半，但位寬分別翻了一倍、兩倍，算力更兇猛。

向量引擎每時鐘週期可執行256個FP32、256個FP64、512個FP16等數據操作，矩陣引擎則每時鐘周期支援2048個FP32、4096個FP64、4096個BF16、8192個INT8。

與向量引擎、矩陣引擎搭檔的，是一個更寬的寬載入/存儲單元，每個時鐘週期取回512位元組數據。

每個Xe核心集成512KB一級數據緩存，這是目前業內最大的，而且可以通過軟體配置作為暫存區使用，又稱共用內部顯存。

Xe核心的上一層級叫做”切片”（Slice），不同於Xe HPG上的渲染器切片（Slice），畢竟一個是做計算，一個是做圖形渲染。

Xe HPC每個切片集成多達16個Xe核心，四倍於Xe HPG渲染切片的規模，同時還有8MB一級緩存、16個光追單元、一個硬體上下文（Hardware Context）單元，其中光追支援光線遍歷、邊界框相交、三角形相交，提供固定函數計算。

硬體上下文單元大家可能比較陌生，它能讓GPU同時執行多個應用，而無需昂貴的基於軟體的文本切換。

切片的上一級則是「堆棧」（Stack），至此才算一個完整的GPU。

一個堆疊包含4個切片，因此總計64個Xe核心、64個光追單元、4個硬體上下文。

同時，堆棧內還有大規模二級緩存、4個HBM2e記憶體控制器、1個媒體引擎、8個Xe鏈路，以及拷貝引擎、PCle控制器。

Xe HPC架構是可以輕鬆擴展的，支援多堆棧設計，屬於業內首創，依靠的是EMIB封裝和堆棧間互連通道，可保持堆棧之間的記憶體一致性。

比如這是雙堆棧，整體規模直接翻番，它就是後邊要說的首款Ponte Vecchio，但看架構圖，似乎不支援四堆棧。

不同的Xe HPC GPU之間通過Xe鏈路互連，支援最多8顆並行，算力直接暴力乘以8。

Ponte Vecchio作為基於Xe HPC架構的首款產品，一切的一切都是全新的，包括驗證方法、軟體、可靠性方法、信號完整性機制、互連、供電、封裝、I/O架構、記憶體架構、IP架構、SoC架構。

Ponte Vecchio是個龐然大物，集成晶體管數量突破1000億個，使用5種不同的製造工藝，在內部封裝了多達47個不同的單元（Tile），包括計算單元、Rambo緩存單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元，等等。

如此複雜的晶片設計，面臨的挑戰自然是空前的，首席架構師Masooma Bhaiwala直言這是她30年來設計的最複雜的晶元，堪稱製造奇跡。

其中，Foveros 3D封裝是一個關鍵，最終的數據傳送速率不得不提高到最初規劃的1.5倍，以便以把Foveros連接數量降至最低，但依然比之前任何設計都高了兩個數量級。

開發團隊還必須在設計初期就鎖定Foveros在所有單元上的位置，這意味著必須一開始就搞定整個平面圖佈局，中途也不允許有明顯變更。

晶片設計和驗證也是全新流程，為此開發了大量新的工具、方法、腳本，並獨立安排4個主要單元，開發各自的調試軟體包，分而治之，加速開發，最終在SoC整體封裝完成幾天內就成功啟動，運行了Hello World。

再來看幾個關鍵的部分，計算單元採用台積電N5 5nm工藝，每個集成8個Xe核心、4MB一級緩存，Foveros封裝凸點間距36微米。

基礎單元是一個連接器，所有複雜的I/O和高頻寬元件都在這裡彙聚，包括PCIe 5.0總線、HBM2e記憶體、MDFI鏈路、EMIB橋接，幾乎是在挑戰物理極限。

它採用Intel 7工藝、Foveros封裝，面積達640平方毫米，集成了多達144MB二級緩存。

Xe鏈路單元是台積電N7 7nm工藝製造，負責不同GPU之間的連接，是面向HPC、AI的縱向擴展的關鍵，每個單元有8條，實現了最高90G Serdes，可以滿足「極光」（Aurora）這樣百億億次級級超級計算機的需求。

Ponte Vecchio目前處於A0版本階段（一般到A1就投入量產），成功運行了數百個工作負載，實測FP32輸送性能超過45TFlops，Memory Fabric緩存帶寬超過5TB/s，互連頻寬超過2TB/s。

Ponte Vecchio將有多種產品形態，最基本的單晶元做成OAM模組，集成到一個載體基板上，AMD Instinct也有這種。

四芯並聯組成一個子系統，再搭配雙路的下一代Sapphire Rapids至強處理器，就是一個超算節點，將用於「極光」超算。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

5種工藝、1000+億晶體管 Intel Xe HPC頂級計算卡秀肌肉

2021-08-20 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆