性能吊打Intel Xeon和NVIDIA H100 這款“萬能CPU”升級到192核了
斯洛伐克的服務器芯片設計公司Tachyum去年曾推出了128核的Prodigy(神童)處理器,號稱在性能、功耗、成本等方面均吊打IntelXeon處理器的。近期,Tachyum又帶來了更為強大的Prodigy 2 處理器,不僅內核數量提升到了192核,同時在緩存容量等眾多方面都有提升。 升級192核心,AI性能翻倍Tachyum表示,通過利用最新的EDA 工具,Prodigy 2 處理器的CPU內核由原來的64位128核心升級到了192核心,主頻依然高達高達5.7GHz;L2/L3緩存容量也從128MB增加到了192MB;芯片的SERDES 數量也從64個增加到了96個;增加了對16 x DDR5 7200 內存的支持,單個Prodigy芯片可連接多達32條DIMM;還擁有48個PCIe 5.0控制器。性能方面,在AI訓練和推理任務中,能夠實現24個AI PetaFLOPS,相比上一代AI性能翻倍;在HPC(高性能計算)負載中,可達到90 TeraFLOPS。雖然官網的資料顯示192核心的Prodigy 2 是基於5nm工藝,但是今年6月的一篇新聞稿顯示,Prodigy 2可能將會升級成3nm工藝。 以上的諸多提升,也使得Prodigy 2 處理器die size從500mm2增加到600mm2,增加了20%。後續,Prodigy 處理器可能還會進一步增加內核數量,但芯片將會受到帶寬限制。目前Prodigy 2 支持的是16 通道DDR5 內存接口,速度可達7200 MT/s 及以上,如果要增加額外的內核,就需要更高速的內存,比如HBM。預計這款處理器將會在2025年推向市場。全新“萬能CPU”架構需要指出的是,Tachyum公司所設計的Prodigy處理器號稱是全球首個真正的“通用處理器。不同於傳統的CPU和GPU解決方案,Prodigy旨在將CPU、GPGPU 和TPU 的功能統一到同一個內核當中,並配備強大向量計算單元和矩陣計算單元,讓HPC和AI工作負載在同一架構上運行。單顆核心就可以支持廣泛的數據類型,包括FP64、FP32、TF32、BF16、Int8、FP8 和TAI。更為關鍵的是,Prodigy還可以運行x86、Arm、RISC-V的二進製文件。堪稱“萬能CPU”。據此前外媒chipsandcheese此前的分析,Prodigy的內核架構是將GPU的矢量吞吐量與CPU的單線程性能相結合,但代價是高功耗。不過,他們認為Prodigy有可能成為具有競爭力的HPC 或AI 芯片。性能吊打IntelXeon和NVIDIA H100?資料顯示,Tachyum於2022年發布的上一代的Prodigy處理器擁有64核心(T864)及128核心(T16128)兩個版本。其中64核心版本,主頻4GHz,基於台積電7nm工藝。128核心版本,基於5nm工藝,FCLGA封裝,尺寸為64毫米×84毫米,工作頻率高達5.7GHz,擁有超過128MB的L2+L3高速緩存、16個DDR5內存控制器和64個PCIe5.0通道,可以處理通用計算、高性能計算(HPC)和AI工作負載。Tachyum表示,Prodigy處理器每個核心能夠擁有2x 1024位矢量單元(IntelGolden Cove核心也只有2× 512 位向量單元),4096位矩陣單元,以及每時鐘4條失序指令。還可支持虛擬化和高級RAS。當時Tachyum公司還宣稱,128核版的Prodigy超級計算機芯片在HPC(高性能計算)負載中,能夠執行12個AI PetaFLOPS和90 TeraFLOPS,性能是Intel最快的Xeon處理器的4倍,是英偉達( NVIDIA) H100 GPU的雙精度浮點性能的3倍;在AI 工作負載中,FP8性能是NVIDIA H100的6倍。同時,Prodigy處理器電源效率也達到了Xeon處理器的10倍,而且成本大約只有傳統硬件的三分之一。從Tachyum公司的描述來看,128核的Prodigy處理器的AI性能可直接吊打IntelXeon、NVIDIA H100,並且能效也更高,成本還更低。更為關鍵的是,還能運行x86、Arm、RISC-V的二進製文件。也就是說,可以直接兼容x86、Arm、RISC-V生態,簡直是強大的離譜!對此,外界一直是持懷疑高度態度,認為是“PPT造芯”。相比之下,最新的192核的Prodigy處理器在在AI訓練和推理性能方面,提升到了24個AI PetaFLOPS。看來性能更是要吊打IntelXeon了。有意思的是,目前Tachyum公司的官網已經看不到了關於64核心(T864)及128核心(T16128) Prodigy處理器的介紹,僅保留了更早之前的48核心(T848)及96核心(T896) Prodigy處理器,以及最新發布的196核心(T16192)Prodigy處理器。如此看來,48核心(T848)及96核心(T896) Prodigy處理器已經被取消。不過,Tachyum公司官網上仍留有關於Prodigy處理器“在性能在優於Xeon的前提下,耗電僅為Xeon的十分之一”、“每MIPS (每秒百萬條指令)只有Xeon三分之一的售價”、“數據中心年度總體建立成本降低4倍”之類的描述。Tachyum在推出性能更強的192核心的Prodigy 2 處理器的同時,還推出了基於其Prodigy 2通用處理器和液體/空氣混合冷卻的百億億次級(E級)人工智能超級計算機的設計。該設計將在60MW的功率預算和6,000平方英尺的佔地面積中提供20 ExaFlops的FP64矢量運算性能。已獲得歐盟2640萬歐元支持值得一提是,Tachyum雖然是一家斯洛伐克芯片設計公司,但實際上其是於2016年由多位資深半導體大咖在美國矽谷成立的,只不過,Tachyum在獲得斯洛伐克政府的1700萬美元投資之後,就將總部設在了斯洛伐克。Tachyum公司CEO Radoslav Danilak曾是SSD主控廠商SandForce(2011年被LSI收購)和Skyera(2014年被西部數據收購)的創始人,此外還曾擔任過NVIDIA的芯片組和GPU架構師、Nishan Systems和Toshiba的CPU架構師,擁有25年的半導體行業經驗;公司聯合創始人兼首席架構師Rodney Mullendore 曾是SandForce的首席硬件架構師、Nishan Systems的聯合創始人,擁有30多年半導體行業從業經驗。得益於斯洛伐克芯片設計公司的身份,在今年6月,包括Tachyum在內的來自歐盟的56家公司,獲得了歐盟81億歐元的資金支持,作為此前宣布的歐洲共同利益微電子和通信技術重要項目(IPCEI ME/CT) 的一部分。其中,Tachyum獲得了2640 萬歐元的支持,以加速Prodigy 2 通用處理器的交付。