AMD Zen 5架構,深度解讀
回到2024 年台北國際電腦展,AMD 執行長蘇姿豐博士在開幕主題演講中發布了備受期待的Zen 5 CPU 微架構。 AMD 宣布了兩個將採用最新Zen 5 核心的新客戶端平台,而不是一個。其中包括AMD 最新的筆記型電腦市場的AI PC 晶片系列Ryzen AI 300 系列。相較之下,Ryzen 9000 系列則是針對使用現有AM5 平台的桌上型電腦市場。
Ryzen AI 300 系列以全新的Zen 5 CPU 微架構為基礎,在圖形和AI 效能方面都有了一些根本性的改進,代號為Strix Point,將在多個領域實現改進。 Ryzen AI 300 系列似乎將在邁向AI PC 的道路上再添一筆,其行動SoC 配備了全新的XDNA 2 NPU,AMD 承諾其性能將達到50 TOPS。 AMD 還用RDNA 3.5 升級了整合式顯示卡,旨在取代上一代RDNA 3 行動裝置顯示卡,從而在遊戲中實現比我們之前見過的更好的效能。
在上週AMD 的技術日上,AMD 揭露了有關Zen 5 的一些技術細節,其中也涵蓋了Ryzen AI 300 和Ryzen 9000 系列的一些關鍵元素。從紙面上看,Zen 5 架構與Zen 4 相比有了很大的進步,關鍵組件透過比其前代產品更高的每週期指令數推動Zen 5 向前發展,這是AMD 從Zen 到Zen 2、Zen 3、Zen 4 以及現在的Zen 5 一直努力做到的事。
AMD Zen 5 微架構:IPC 比Zen 4 提高16%
行動版AMD Ryzen AI 300 系列與桌上型電腦版Ryzen 9000 系列皆採用AMD 最新的Zen 5 架構,在效能與效率上帶來許多改進。其行動產品線中最大的改進或許是整合了XDNA 2 NPU,旨在利用Microsoft Copilot+ AI 軟體。這些新的行動處理器透過NPU 可提供高達50 TOPS 的AI 性能,使其成為AMD 行動晶片產品線的重大升級。
Zen 5 微架構的主要功能包括雙管道提取,它與AMD 所謂的高階分支預測相結合。這旨在減少延遲並提高準確性和吞吐量。增強的指令快取延遲和頻寬最佳化進一步促進了資料流和資料處理速度,而不會犧牲準確性。
Zen 5 整數執行能力比Zen 4 有所升級,Zen 5 具有8 寬調度/退出系統。 Zen 5 內部改進的一部分包括六個算術邏輯單元(ALU) 和三個乘法器,它們透過ALU 調度程序進行控制,AMD 聲稱Zen 5 使用了更大的執行視窗。理論上,這些改進在更複雜的計算工作負載下應該會更好。
Zen 5 的其他主要增強功能包括比Zen 4 更高的資料頻寬,配備48 KB 12 路L1 資料緩存,可滿足4 週期負載。 AMD 將L1 快取的最大可用頻寬增加了一倍,浮點單元也比Zen 4 增加了一倍。 AMD 還聲稱改進了資料預取器,確保更快、更可靠的資料存取和處理。
Zen 5 還引入了完整的512 位元AI 資料路徑,它使用具有完整512 位元資料路徑的AVX-512 和具有兩週期延遲FADD 的六個管道。儘管Zen 4 可以支援AVX-512 指令,但它使用兩個相互協同工作的256 位元資料路徑,術語「雙泵」是其最廣泛使用的術語。 Zen 5 現在具有完整的AVX-512 資料路徑,這是一個受歡迎的改進。
看看AMD 宣稱的Zen 5 的IPC 提升,AMD 聲稱與Zen 4 相比平均提升了16%。當然,AMD 提供了內部數據,這些數據顯示了各種基準測試的全面改進。其中包括《孤島驚魂6》的10% 提升,《速度計》的15% 提升,《英雄聯盟》的21% 提升更大。 AMD 最大的宣稱是Geekbench 5.4 AES-XTS 的大幅提升了35%。這是一個令人印象深刻的效能提升,儘管Geekbench 5 AES XTS 測試使用了VAES+ 和AVX10/512,這對於像Zen 5 一樣支援這些指令的處理器來說可能是有利的。
正如我們在Zen 微架構的先前版本中看到的那樣,AMD 正在將Zen 5 應用於整個產品系列。全功能Zen 5 核心採用台積電的4nm製造,而更緊湊、更節能的Zen 5c 核心則採用台積電的3nm 製程技術製造。 AMD 即將推出的第五代EPYC CPU(代號為「Turin」)預計將於2024 年下半年推出,它將利用多達192 個Zen 5 核心。AMD 先前在2022 年6 月的財務分析師日上宣布,第五代EPYC 將於2024 年推出。
XDNA 2 NPU ,最高可達50 TOPS
對於筆記型電腦的AMD Ryzen AI 300 系列,與上一代Ryzen 8040 系列(Hawk Point) 相比,第二大進步是神經處理單元(NPU)。 AMD於2020 年收購Xilinx,透過整合Xilinx 現有技術啟動了NPU 開發,從而形成了AMD 最初的XDNA 架構。憑藉其最新版本的架構XDNA 2,AMD 進一步擴展了其功能和性能。它還引入了對塊浮點16 位元算術方法的支持,而不是傳統的半精度(FP16),AMD 聲稱它結合了8 位元的性能和16 位元的精度。
看看AMD XDNA 架構與多核心處理器的典型設計有何不同,XDNA 設計必須將靈活的運算與自適應記憶體層次結構結合。與固定計算模型或基於靜態記憶體層次結構的模型相比,XDNA(Ryzen AI)引擎使用互連的AI 引擎(AIE) 網格。每個引擎都經過精心設計,能夠動態適應手邊的任務,包括運算和記憶體資源,旨在提高可擴展性和效率。
進一步談及AIE 的平鋪方法,AMD 稱之為空間架構。它設計靈活,同時將平鋪資料流結構與可程式互連和靈活分區結合在一起。平鋪資料流結構可實現確定性效能,不會出現任何快取未命中,還可增強記憶體管理。可程式互連大大降低了對記憶體頻寬的需求,從而使其能夠有效率地分配資源。所採用的靈活分區設計可實現即時效能,同時能夠滿足不同的要求,從各種AI 推理任務(包括即時視訊和音訊處理)到內容建立工作流程。
XDNA 2 架構以現有的XDNA 架構為基礎,並增加了更多AI 引擎以提高吞吐量。 Strix Point 中的AMD XDNA 2 實現有32 個AI 引擎區塊,比上一代多12 個。 XDNA 2 架構不僅提供了更多的AI 引擎區塊,而且每個區塊的MAC 數量是上一代的兩倍,片上記憶體是上一代的1.6 倍。
總而言之,AMD 聲稱其NPU 性能達到50 TOPS,這比英特爾和高通目前的產品要高。關於使用TOPS 來衡量AI 性能的相關性的爭論存在分歧,而微軟通過將Copilot+ 的標準設定為40 TOPS 而率先提出了這一要求。
XDNA 2 架構不僅試圖在TOPS 上超越競爭對手,而且在設計時還考慮到了能源效率。 AMD 聲稱,與Ryzen 7040 系列中使用的NPU 相比,其XDNA 2 NPU 的運算能力提高了5 倍,能源效率提高了一倍。這是透過各種設計選擇實現的,包括基於列的電源門控,AMD 表示它可以顯著延長電池壽命,並且在多任務處理時能夠同時處理多達八個並發空間流。
XDNA 2 架構的主要功能之一是支援區塊浮點(Block FP16)。簡單來說,它提供了8 位元運算的性能和速度,但採用了額外的技巧,試圖使精度更接近16 位元運算。值得注意的是,這也是在沒有進一步量化或減少正在處理的資料大小的情況下實現的。
與其他神經網路精度最佳化一樣,Block FP16 的目的是減少所需的計算工作量;在這種情況下,使用8 位元數學,而不會產生從16 位元數學降級的全部缺點——即降低精度導致結果較差。當前一代NPU 已經可以進行原生8 位元處理(以及16 位元處理),但這要求開發人員要么優化(和量化)他們的軟體以進行8 位元處理,要么承受停留在16 位元的速度損失。人工智慧仍然是一個相對年輕的領域,因此軟體開發人員仍在努力弄清楚多少精度才足夠(這條線似乎像邊緣欄一樣不斷下降),但基本思想是,這試圖讓軟體開發人員魚與熊掌兼得。
儘管如此,從技術角度來看,Block FP16(又稱Microscaling)本身並不是一項新技術。但AMD 將成為第一家支援這項技術的PC NPU 供應商,而英特爾即將推出的Lunar Lake 也將加入他們的行列。因此,雖然這是AMD 的新功能,但它不會是一項獨特的功能。
至於Block FP16 的工作原理,AMD 自己關於該主題的材料相對較高,但我們從其他來源得知,它本質上是一種帶有附加指數的定點8 位元計算形式。具體來說,Block FP16 對所有數值使用共享指數,而不是每個浮點數值都有自己的指數。例如,FP16 數字不是具有符號位、5 位指數和10 位有效位,而是具有與所有數字共享的8 位指數,然後是8 位有效位。
這實際上允許處理器透過將唯一有效數字處理為INT8(或定點8 位元)數字來作弊,同時跳過共享指數的所有工作。這就是為什麼Block FP16 效能與INT8 效能大致相同:它基本上是8 位元數學。但是透過共享指數,軟體作者可以將計算的整個數字範圍視窗移動到特定範圍,該範圍通常超出了真正的FP8 數字的微不足道的指數所提供的範圍。
大多數AI 應用都需要16 位元精度,而Block FP16 滿足了這項要求,至少從AI 的角度來看,它同時為行動市場帶來了高性能和高精度。這使得Block FP16 成為推動AI 技術發展的重要元件,而這也是AMD 正在努力推動的事情。
歸根結底,Ryzen AI 300 系列行動晶片中基於XDNA 2 的NPU 實際上是用來處理AI 工作負載並以比使用圖形更節能的方式運行Microsoft Copilot+ 等功能。並且,透過能夠提供8 位元性能和16 位元精度,這為開發人員提供了另一個槓桿,以充分利用硬體。
AMD XDNA 2 架構將與Ryzen AI 300 系列一起首次亮相,它將提供解鎖AI PC 的關鍵,或至少是微軟對Copilot+ 的40 TOPS 要求所定義的。透過將Block FP16 引入方程式,AMD 以8 位元速度實現了(接近)16 位元精度,使其在某些AI 應用程式上具有更高的性能。總而言之,整合的NPU 預計將提供高達50 TOPS 的計算性能。
AMD 是第一家在晶片中整合NPU 的x86 SoC 供應商,隨著對晶片上AI 解決方案的需求不斷增長以解鎖許多軟體功能,他們希望硬體(及其代表的晶片空間)能夠充分利用。 XDNA 2 架構確保AMD 保持領先地位,為行動市場提供穩定的效能和全面的多功能性。
RDNA 3.5 顯示卡帶來視覺效果
為Ryzen AI 300 行動系列晶片帶來的另一項新技術是升級的整合式顯示卡。 AMD 的RDNA 3.5 圖形架構代表下一代AMD 圖形架構的墊腳石(沒有.5)。最新版本的設計旨在提高性能和效率,重點是優化每瓦性能的每一滴。值得注意的是,AMD 尚未提供太多關於RDNA 3.5 的細節,因此我們將深入研究其主要功能和進步。
AMD RDNA 3.5 圖形架構代表了其Ryzen AI 300 行動SoC 整合顯示卡的下一步,與RDNA 3 相比有一些顯著的升級。 AMD 一直與ISV 和開發商密切合作,以確保RDNA 3.5 提供AMD 表示將與行動合作夥伴攜手合作以提高遊戲每瓦效能的所有內容。一些改進包括常規圖形著色器操作,這些操作經過最佳化以確保一切正常運作。 AMD 非常注重每位效能,這不僅減少了記憶體存取時間,還讓操作更流暢。改進的總體重點是功率與性能,AMD 的目標是中間地帶以確保更長的電池壽命,這對於行動和便攜式設備至關重要。
與RDNA 3 相比,許多改進都來自針對行動平台特別優化的多項功能。這確保了Radeon 890M(Ryzen AI 300 系列的型號)在效率和視覺性能方面兼具兩者的優勢。紋理取樣率翻倍,確保GPU 具有雙倍速率效能。從表面上看,這意味著在遊戲過程中紋理和圖形的細節和清晰度得到增強。從理論上講,這應該有助於改善細節紋理,使其在玩高解析度遊戲時看起來很棒。此外,RDNA 3.5 的內插和比較率是2 倍,因為向量ISA 操作可以更好地呈現高品質圖形的細節。
另一個關鍵改進是更好的記憶體管理技術。這些技術降低了記憶體存取頻率,這意味著資料處理在理論上應該更快,整體上更節能。優化的LPDDR5 存取還應保證快速且有效率的記憶體使用,有助於延長電池壽命。
AMD 提供了一些RDNA 3.5 與RDNA 3 的性能數據,如果將其轉化為實際性能,這些數據將非常令人印象深刻。從紙面上看,RDNA 3.5 架構與上一代Ryzen 8040 系列相比,效能顯著提升,每瓦效能提升高達32%。在3DMark Timespy 和3DMark Night Raid 等圖形工作負載中,AMD 聲稱RDNA 3.5 在15 W 下的效能提升了19% 至32%。
由於這些改進,RDNA 3.5 與其前身RDNA 3 相比在各方面都有所改進。例如,RDNA 3.5 透過優化紋理採樣和插值等關鍵內容,大大提高了GPU 更有效執行複雜圖形操作的能力。改進RDNA 3.5 中的記憶體管理還可以實現更好的功率最佳化和資料處理,以解決主要的GPU 效能問題。所有這些都應該帶來實際的效能優勢。然而,與任何移動SoC 一樣,這些仍然沒有達到獨立顯示卡的水平,獨立顯示卡通常具有更大的晶片面積、更高的製造級電晶體預算,當然還有更高的功率。