AMD EPYC Rome有多強?或撼動英特爾服務器市場地位
對於一個季度利潤收入只有英特爾一天利潤的AMD而言,能夠分食利潤豐厚的服務器芯片市場意義重大。但在英特爾與AMD的競爭中,AMD大部分時候都處於下風,但情況或將發生改變。美國時間8月7日,AMD CEO 蘇姿豐博士發布了第二代霄龍(EPYC)7002系列(代號Rome)。
新處理器創下80項世界紀錄,可以被稱為史上最強x86處理器。從目前的信息看,基於Zen2架構的的第二代EPYC處理器羅馬無論從架構、性能、安全性方面相比英特爾至強可擴展處理器都有不錯的表現。
AMD發布其第一款7納米處理器,也標誌著AMD在與英特爾的競爭中,第一次奪得製程優勢,這一優勢不容小覷。由於台積電的7nm工藝與AMD的Zen 2微架構相結合,AMD的EPYC羅馬處理器在很大程度上被認為是一個轉折點,使其能夠從英特爾市佔率高達95%的數據中心市場中脫穎而出。
即使只獲得20%的服務器市場份額,也會對長期處於劣勢的AMD產生真正的變革性影響。如果你知道英特爾一天產生的利潤就超過AMD在整個季度產生的利潤,就可以感覺到AMD似乎已經克服了難以逾越的困難。
AMD EPYC羅馬(Rome)處理器的首次亮相不僅標誌著該公司數年提出的大賭注、精明的市場策略和巧妙的工程設計,也標誌著半導體歷史上最大一次動蕩的開始。
與往常一樣,這一切都始於芯片,但要獲得數據中心還需要多方面的努力,如操作系統和軟件優化、與OEM的關係,以及建立強大的硬件生態系統。這對於像Zen這樣全新而獨特的架構而言,難度是雙重的。
AMD第一代EPYC Naples(那不勒斯)處理器讓業界熟悉新的Zen微體系結構,雖然有一些優於英特爾Xeon處理器的優勢,但大的轉變需要時間,Naples缺乏一個殺手級的特性,刺激行業轉向AMD。特別是在採用新架構方面非常保守的行業。
Naples處理器於2017年首次亮相後,AMD不得不做出重大決策:可以將EPYC轉移到比其桌面芯片更快更高效的12nm工藝,或者直接轉向7nm工藝。
AMD選擇了向7nm工藝邁進,為其提供了一個殺手級功能,為密度和功耗的根本改進奠定了基礎。
7nm工藝相比英特爾的14nm工藝擁有密度優勢,相當於更多的核心數量。它還帶來了功耗優勢,每瓦特耗電可以完成更多工作(數據中心的關鍵考慮因素),還有更高的時鐘頻率,更大的緩存和極具競爭力的價格。與基於小芯片(chiplet)設計的成本和產量優勢相結合,改進的Zen 2架構使每週期(IPC)指令吞吐量提升約15%,快速轉向PCIe 4.0,行業領先的內存通道和x86處理器的吞吐量,EPYC不再被視為英特爾的“替代品”。現在,它的特性被認為能吸引行業巨頭的,正如在HP C和超級計算機中使用了羅馬處理器一樣。
如今,AMD這麼做背後的理由變得清晰,AMD的合作夥伴將發布80項世界紀錄,這是AMD數據中心處理器的最高世界紀錄。令人印象深刻的是,這些記錄在很多實際工作負載中都有40-50%到80%不等的提升。性能提升來自四倍的浮點性能和更大的L3緩存,這些緩存也有助於提升AI/ML工作負載,還有領先的I/O功能,可為GPU加速器提供雙倍的吞吐量(更不用說為每台服務器支持更多的加速器)。增加PCIe 4.0也有利於存儲設備,特別是主存儲器。
桌面PC市場吸引了大量的關注,看看圍繞Ryzen 3000發布的報導就可以知道,但毫無疑問,數據中心能夠帶來豐厚的利潤。
如果AMD要贏得與英特爾的更大戰爭,它必須贏得數據中心之戰。但英特爾並不只是坐視不管。讓我們來看看未來幾年數據中心的大戰。
AMD EPYC羅馬處理器
EPYC Rome 處理器採用獨特的架構,有8個7nm計算芯片,每個計算芯片有8個內核,通過Infinity Fabric連接到內置12nm I/O的芯片,這個芯片內置存儲器和PCIe控制器。AMD針對每種特定型號定制計算小芯片的數量和核心數量。
來源:Tom’s Hardware
處理器使用Socket SP3(FC LG A 4094)接口,可向後兼容Naples平台,雖然失去了PCIe 4.0連接,並且兼容下一代EPYC Milan(米蘭)型號。定制平台可以通過巧妙的配置技巧向用戶提供多達162個PCIe 4.0通道,而大多數情況使用128個通道。
AMD繼續為雙插槽服務器(2P)提供特定型號處理器,並為單插槽服務器提供產品(用“P”後綴表示)。
羅馬的核心數量從8核16線程到x86領先的64核和128線程。我們通常期望隨著核心數量/ TDP的上升,turbo頻率會下降,就像我們在羅馬的基本時鐘看到的那樣,但AMD仍然看好這一趨勢。實際上,它的最高核心數型號具有最高的超頻頻率。
基本時鐘速度範圍為2.0 GHz至3.2 GHz,而超頻頻率範圍為3.0 GHz至3.4 GHz,與Naples的前輩相比,峰值頻率有了的全面改善。考慮到某些型號的核心數量是兩倍,這令人印象深刻,AMD表示,基礎頻率的提升應該會抵消英特爾單核心的一些性能優勢。
AMD的功耗感知超頻算法還支持多核高頻,EPYC 7742在所有內核加載時能夠維持3.2 GHz的高頻率。與此同時,英特爾最大的通用Cascade Lake Xeon產品有28核和56線程,直到2020年上半年的某個時候才會改變,英特爾推出新的56核Cooper Lake型號。
所有羅馬處理器都支持2TB內存,每台服務器最多4TB,分佈在8個DDR4-3200通道上,這比Xeon的6個DDR4-2933通道有了顯著改進。羅馬的八個內存通道引起了人們對每個內核內存吞吐量的擔憂,但AMD聲稱性能可以隨著內核數量的增加而擴展,甚至可以擴展到兩個插槽。英特爾預計在明年會支持8個DDR4通道,在推出14nm Cooper Lake芯片時。
羅馬為所有型號提供128通道PCIe 4.0,包括單插槽型號,最多可以達到162個通道。值得注意的是,單插槽和雙插槽服務器都會向用戶開放128/162 PCIe 4.0通道。PCIe 4.0接口的吞吐量是PCIe 3.0的兩倍,這是英特爾當前產品沒有匹配的功能。據傳英特爾將在其Ice Lake處理器上支持PCIe 4.0,但要到2020年第二季度出貨,這會使得英特爾的高速I/O設備堆棧出現疲軟,例如新的支持PCIe 4.0的GPU,網絡和存儲設備。
羅馬的L3緩存有所不同,對於64核的型號,最高可達256MB。AMD還提供具有192MB或256MB L3緩存的48核型號以及具有64MB或128MB L3的32核型號,表明AMD具有針對特定工作負載量身定制更高性能型號的能力。最強大的羅馬型號在雙插槽型號中提供近半GB的L3緩存。
AMD將其羅馬陣容分為五個不同的TDP,從120W到225W。這些TDP範圍可以在SKU-by-SKU的基礎上進行更改,使用戶能夠從每個型號中獲得更高的性能,最高可達240 W的cTDP。較高的TDP通常需要定制平台,因此並非所有上一代服務器都能支持240W TDP。新的峰值TDP超越了上一代型號,但這是預期的,因為羅馬的核心數量有高兩倍增加。
AMD EPYC羅馬定價
AMD尚未公佈EPYC羅馬陣容的官方定價,但Tom’s Hardware的消息來源提供了以下數據。AMD的目標是在每個價位提供性能更高,更多內核,更大內存帶寬和更多I/O的產品,也就是提供比英特爾更好的總體擁有成本。
雖然這不是對英特爾至強可擴展產品完整的對比,而且英特爾沒有28核以上的產品與AMD競爭,但基本的情況仍然如此:AMD在每個細分市場提供更多核心和線程,L3緩存是英特爾的三倍,但單價更低。事實上,英特爾28核型號比AMD最強勁的64核128線程更昂貴。
AMD的TDP低於英特爾高核型號,但兩家較少核心的產品,兩家的TDP類似。值得注意的是,儘管AMD在其7nm芯片上具有強大的功能,但是大型12nm I / O芯片增加了一些功耗。與往常一樣,TDP不是功耗的衡量標準,因此我們必須等待第三方的結果來衡量兩個堆棧之間的相對功率效率。
AMD的處理器也不需要主機主板上的芯片組,主要是因為處理器本身提供了大量的PCIe 4.0通道。這降低了成本和平台功耗。
AMD EPYC羅馬性能
AMD憑藉7nm工藝,Zen 2架構增加了新功能,並顯著提升了Zen微體系結構的性能,AMD還表示將在2021年推出了7nm +工藝的Zen 3微架構。
AMD稱,相對Naples處理器,每插槽性能翻了一番,並且通過將256位AVX吞吐量翻倍,理論上使FLOPS(浮點)性能峰值翻了兩番。羅馬提供204GB / s的內存吞吐量,每個插槽最高支持4TB的RAM。PCIe 4.0提供512 GB /s的峰值I/O吞吐量。羅馬是第一款支持PCIe 4.0的x86服務器處理器,儘管IBM的POWER架構已經支持更快的標準。
與擁有近百種不同SKU的英特爾Xeon不同,AMD已將其產品優化為4個泳道,分別為8,12 / 16,24 / 32和48/64核心段,總共19個SKU,分類不多。與英特爾不同,AMD不會縮減PCIe通道或內存速度/通道等功能,以區分其堆棧。
AMD聲稱配備64核型號的單插槽服務器可以勝過英特爾8280M以上的雙插槽服務器。
AMD EPYC羅馬安全性
AMD已在芯片中構建了Spectre v2緩解措施,從而降低對性能的影響。AMD還修補了IBRS和IBPB以及Spectre v4。對於去年出現的各種投機性執行漏洞,羅馬也沒有英特爾那麼脆弱。羅馬還支持安全內存加密功能。
AMD的信任之源來自一個安全的處理器,它使用獨立的ISA運行單獨的代碼。這些芯片在內存控制器中也有一個AES-128引擎,密鑰由安全處理器管理。因此,密鑰與x86隔離。該芯片最多支持509密鑰。SME可以防止物理內存攻擊,可以在硬件或虛擬機管理程序級別完成。SEV建立在SME之上,讓每個訪客都擁有自己的密鑰,只有安全處理器管理,才能將訪客與虛擬機管理程序隔離開來。
AMD增加了x2APIC擴展以改進對高核心數量的支持,支持其內存帶寬和L3緩存訪問的服務質量機制,增加了對非易失性存儲器的支持。
AMD EPYC 羅馬Zen 2微體系結構
EPYC Rome使用與Ryzen 3000系列處理器相同的基礎微體系結構,性能的改進,如每週期指令(IPC)吞吐量提升15%,是相同的。
7nm工藝作為基礎,提供雙倍密度,在任何給定功率點,高頻可達1.25倍,或者可以調整為一半的功耗,具有與上一代型號相同的性能水平。
Zen2微體系結構是一個很好的改進,但高級別的改進包括一個新的TAGE分支預測器,作為基於感知器的預測單元的第二階段的補充。該公司還將L3緩存容量增加了一倍,並轉向了L1指令緩存的8路關聯性,允許它減小L1緩存並使運行緩存加倍。
AMD始終支持256位AVX,但它需要將指令拆分為兩個128位。對於Zen 2,AMD將數據路徑寬度和向量寄存器文件加倍。對加載/存儲單元的更改包括更大的存儲陣列和更大的L2 DTLB塊。AMD還將讀取和寫入寬度增加到256b,並使負載+存儲帶寬增加了兩倍。
每個計算芯片(CCD)由兩個標準的四核CCX組成,但現在它們配備了兩倍的L3緩存,這有助於減少對主存儲器的訪問量。AMD還通過新的NUMA排列,有效減少內存延遲。
AMD EPYC羅馬多芯片混合架構
和以前一樣,羅馬基於SoC設計,但該公司轉向12nm I / O芯片,將八個計算芯片捆綁在一起。核心小芯片設計與消費級Ryzen 3000相似,基於小芯片的架構由於較小管芯的固有良率優勢而提供成本優勢。它還允許供應商在插槽中放置更多芯片,因為當計算內核分佈在多個芯片上時,光罩限制不再適用。因此,AMD可以將最高達~1000平方毫米的單個封裝中,這相當於一個封裝中有320億個晶體管。
12nm I / O芯片將芯片與8個核心連接在一起。DDR4和PCIe 4.0控制器在I / O芯片上,這使得處理器可以提供類似內存訪問的延遲,而不是上一代芯片的三層延遲配置文件。這也有改善NUMA性能的作用,現在只有兩個NUMA域,而Naples有三個。這相當於兩個域的等時延分佈分別為104ns和201ns,分別減少了19%和14%。這些芯片還可以配置為三個NUMA域,可額外減少域94ns時延。
AMD在不需要或未充分利用非核心時增加了動態非核心DVFS系統來節省電力,或者節省的電力可以專用於計算核心。與英特爾不同,AMD不會根據正在處理的指令類型降低頻率,而是降低功耗,這有助於羅馬為高核心數模型維持更高超頻核心數。這特別有助於高性能型號,如圖中7742的最大頻率的提升。
除了每個插槽的內核數量翻倍外,AMD還使Infinity Fabric的帶寬大致翻了一倍,第一代平台在雙插槽系統中支持兩個處理器之間10.7 GT / s的吞吐量,針對羅馬優化的平台可以達到達到18 GT / s。AMD將每個時鐘的Infinity Fabric讀取寬度增加一倍,達到32B,但保留16B寫入寬度。Infinity Fabric還具有鏈路寬度管理系統,可在低利用率期間節省電力,同樣的技術也適用於存儲器子系統。
羅馬提供高達410 GB / s的內存吞吐量,這很容易超過英特爾282 GB / s的峰值吞吐量。
羅馬的I / O鏈路可以配置為幾種不同的用途,可以專用於socket-to-socke的連接,或者僅用作標準PCIe鏈路。這使得該公司可以在單插槽系統上支持128個通道。PCIe子系統還支持分叉,每個x16鏈路最多允許8個設備。在Radeon Instinct GPU的智能舉措中,一些2P系統可以通過禁用socket-to-socket鏈路來獲得更多的I / O通道,在雙插槽服務器中向用戶提供多達162通道的PCIe 4.0 。這些技術需要與第一代Naples 系統不兼容的專用平台。
所有羅馬處理器都可以在單插槽服務器上運行,但AMD保留了專門針對單插槽系統的型號,以驅動特定的生態系統。
思考
現在看來,AMD EPYC羅馬處理器看起來實力強大,具有前所未有的核心數量。我們將不得不等待實驗室中的第三方驗證,但如果芯片符合預期,AMD的羅馬可能是AMD在數據中心的轉折點。
英特爾正在忙於推廣其平台級優勢,例如與加速器和Optane DC持久內存的緊密集成,可以被視為提升價值的互補產品,也可以簡單地視為供應商鎖定。這一切都取決於你的觀點。
英特爾還將確保其合作夥伴和客戶意識到它確實擁有自己的高核心數產品,那就是14nm的58核心Cooper Lake型號,但這些芯片要到明年才會發布,現在英特爾的產品依舊使用14nm,沒有PCIe 4.0連接。很明顯,當英特爾面臨如此競爭時,他們正試圖阻止客戶投資選擇EPYC羅馬處理器。
對數據中心和企業客戶來說,驗證軟件堆棧和硬件配置需要相當多的驗證,特別是對於關鍵任務應用程序。考慮到開發支持新硬件的新系統所需的時間和金錢,AMD有信心說服客戶進行切換。這就是為什麼AMD傳達其路線圖和策略的原因:它希望潛在客戶知道這些投資將在長期內獲得回報。
正如AMD明智地對其第一代Naples處理器所做的那樣,它的目標是服務超大規模雲服務提供商,幫助他們減少開銷。設法獲得CSP(Cloud service providers)還可以促進基於雲的實例生態系統,潛在客戶可以使用它來測試新硬件,但不需要負擔前期投資。
如果AMD的羅馬能兌現其承諾,那麼英特爾的主要優勢可能在於,英特爾在與大型原始設備製造商和原始設備製造商之間建立了穩固的關係,從而建立了數據中心的主導地位,英特爾在過去幾週內一直在努力提醒我們他們的這一優勢。但該行業長期以來一直希望通過真正的競爭來控制價格。毫無疑問,羅馬在這方面做出了貢獻,如果芯片真的如大多數分析師所期望的那樣,AMD就可以改變整個數據中心市場。