一個號稱“萬能”的CPU架構
為數眾多的半導體初創公司希望打入市場,它們要么擁有一些大型AI 訓練芯片,要么擁有一些超快速的小型推理設備,或者可能是針對一個特定問題的HPC 專注設計。一些公司資金充裕,其中不乏融資超過1億美元的公司,還有一些資金支持超過10億美元。
在本文中,我們著眼於Tachyum,這是一家美國/歐盟芯片初創公司,它於2018 年首次出現在我們的視野中,其高性能、高頻率的處理器設計令人驚嘆,涵蓋了諸多細分市場。在2022 年的今天,他們已經修改了早期的設計,總而言之,它看起來更像是一個可以真正打破常規的計算架構。
我們所要討論的是擁有128 核、每核2×1024 位向量、5.7 GHz、1 TB/秒的DRAM的龐然大物。有人說我們的數據中心的熱餘量用完了,這顯然是錯誤的,Tachyum 證明了這一點。在本文中,我們將介紹新設計與舊設計的比較,以及我們可以從Tachyum 的披露中收集到哪些信息。
01
Tachyum Prodigy 2022
今天,Tachyum 仍然稱他們的架構為“Prodigy”。但他們已經根據客戶的反饋對其進行了徹底改革。VLIW 捆綁包被更傳統的ISA 取代, 硬件調度功能更強大,提高了每個時鐘的性能。緩存層次結構也發生了重大變化。2022 Prodigy 的變化足夠廣泛,以至於對2018 年Prodigy 所做的大部分分析都不再適用。
在高層次上,2022 Prodigy 仍然是一個非常廣泛的架構,具有巨大的向量單元:
與2018 Prodigy 一樣,2022 Prodigy 的目標是極高的時鐘速度和高內核數。事實上,這些目標已經被提高了,時鐘速度從4 GHz 提高到5.7 GHz,內核數從64 增加到128。本文中我們將更深入地了解細節。
02
再見捆綁包,你好Sane ISA
Tachyum 最初試圖通過將指令集與底層硬件實現緊密聯繫來簡化CPU 設計。VLIW 包允許非常簡單的解碼和映射邏輯。編譯器協助調度,它會設置“停止位”來標記可以並行發布的指令組。這種方案表面上類似於Nvidia 在Kepler 和後來的GPU 架構中使用靜態調度,並讓內核跳過硬件中的依賴檢查。
但是將ISA 綁定到硬件會產生前向兼容性問題。例如,如果新架構具有不同的指令延遲,則必須設置不同的停止位。Tachyum 的潛在客戶不會接受產品世代之間的ISA 更改。在實踐中,像將ARM 支持添加到復雜的軟件項目這樣“簡單”的事情可能需要18 個月以上的時間。支持新的ISA 必須是一次性投資,而不是每次CPU 升級都會重複的投資。
最新的Prodigy 架構通過放棄原來的VLIW 方案轉而採用更傳統的ISA 來解決這個問題。指令有四個或八個字節長。編碼不再包含“停止位”,這意味著現在Prodigy 在硬件中進行依賴性檢查,而不是依賴硬件來標記獨立指令組。
03
前端和分支預測
儘管放棄了VLIW 設置,Prodigy 仍然可以維持每個週期8 條指令——對於目標為5.7 GHz 的CPU 來說,這是一項了不起的成就。根據Rado所說,這個內核寬度對於在AI 和HPC 負載中實現最大性能是必要的。在整數工作負載中,4 寬的內核就足夠了,而增加到8 寬的內核只會將性能提高7-8%。但是,AI 或HPC 程序中的一次循環迭代可能會執行兩條向量指令、兩次加載、遞增循環計數器並有條件地分支。將內核寬度提高到8 寬將使Prodigy 在每個週期完成一個循環迭代。
為了保持這種吞吐量,Prodigy 可以從L1 指令高速緩存中提取每個週期128 字節。考慮到64 個字節足以包含8 條指令,這絕對是大材小用。Tachyum 可能選擇了更多的獲取帶寬,以在所佔用的分支周圍保持高吞吐量。Prodigy 沒有大的L0 BTB,因此與Zen 3 和Golden Cove 相比,它可能會在所採用的分支周圍遇到更多的指令獲取停頓問題。通過一次獲取128B 字節,前端可以在BTB 延遲丟失一個週期後“趕上”。
Prodigy 的分支預測器也得到了改進。BTB容量翻倍至2048條,預測算法是2018 Prodigy中gshare one的改進版。但總的來說,Prodigy 的預測器與最新的AMD、ARM 和Intel 高性能內核中的預測器不同。AMD 的Zen 3 有一個6656 入口的主BTB。ARM 的Neoverse V1 擁有8192 個BTB 入口,而英特爾的Golden Cove 擁有令人難以置信的12K 入口BTB。BTB 容量並不是唯一的缺點。Prodigy 繼續使用綁定到指令緩存的BTB。這簡化了設計,因為無需進行單獨的BTB 查找——L1i 查找為您提供指令字節和分支目標。AMD 的Athlon 也做了類似的事情,ARM 在2010 年代中期使用了這個方案。但是來自AMD、ARM 和Intel 的現代內核已經轉移到解耦BTB,允許它們在代碼佔用量超過L1i 容量時保持高指令帶寬。對於耦合的BTB,L1i 未命中意味著BTB 未命中。並且不知道下一個分支將去哪裡,這大大降低了在指令緩存未命中後您可以有效預取的距離。但是Tachyum 正在使用標准單元庫,並以非常高的時鐘速度為目標,而使用這些標准單元庫的解耦BTB 被認為過於昂貴。
為了解決這個問題,Tachyum 將L1i 容量增加到64 KB,是2018 年Prodigy 的四倍,以確保L1i 失誤減少。Rado 指出,specint2017 中的64 KB L1i 未命中率低於0.5%。我們對Ampere Altra 的64 KB L1i 的觀察大致一致。更大的L1i 還有助於提高電源效率,並最大限度地減少與L2 帶寬上的數據端的爭用。
ARM 採用了更大的64 KB L1i 高速緩存,效果極佳,並且L1i 未命中率低。
2022 Prodigy 還繼續依賴於相當過時和基本的gshare 預測算法,而現代CPU則使用更複雜的技術,可以在給定的存儲預算下實現更好的預測精度。Tachyum 考慮構建更高級的分支預測器,但同樣,標准單元庫意味著實現TAGE 預測器會過多地降低時鐘速度。由於高時鐘速度要求,除了感知器預測器- 您可以想像在一個時鐘週期內匯總一批權重需要做很多事情。包含本地歷史的方案也不可行,因為高獲取帶寬意味著每個週期必須執行多個預測。具有本地歷史的多個預測將需要每個週期進行多次歷史表查找。因此,Tachyum 堅持使用基於全局歷史的預測器,並且每塊8 條指令進行預測。這使分支預測器保持簡單,同時讓它跟上Prodigy 內核寬度所需的預測帶寬。
英特爾的Rocket Lake 內核,帶有分支預測器存儲和其他前端緩存標記。圖片來自Fritzchens Fritz,Clam 註釋
Rado 提到Prodigy 的未來版本可以使用自定義單元,這將讓他們考慮更高級的分支預測器,同時仍然以非常高的時鐘速度為目標。相比之下,英特爾似乎在分支預測器中使用了在內核其他地方看不到的自定義SRAM 單元。AMD 採用了不同的方法,將相同的SRAM 單元用於分支預測器存儲、L1 指令緩存和微操作緩存。
AMD 的Zen 3 內核,帶有分支預測器存儲和其他標記的前端緩存。圖片來自Fritzchens Fritz,Clam 註釋
Zen 3 展示了可以使用標准單元構建最先進的分支預測器,儘管可能不是Prodigy 的目標5.7 GHz 速度。
04
後端:巨大的向量單元和完整的OoO?
如果你不能有效使用它,那麼建立一個巨大的內核並沒有多大意義。為此,Tachyum 放棄了他們2018 年的設計,並在硬件中實現了深度重新排序功能。2022 Prodigy 可以跟踪多達256 條正在運行的指令,其中整數寄存器有96 個重命名,向量寄存器也有同樣多的重命名。它可以重新排序過去的各種依賴項。根據Tachyum 的描述,Prodigy 可以像AMD、ARM 和Intel 的內核一樣完全亂序執行。但不是使用更傳統的無序引擎,而是使用檢查點方案。對於可能導致異常的指令,例如未命中緩存的加載,Prodigy 會保存帶有寄存器狀態的檢查點。如果該指令確實導致異常,則該檢查點用於提供精確的異常處理。2022 Prodigy 可以保存多個檢查點,而2018 Prodigy只能保存一個檢查點。這是一個重大改進,就執行單元而言,Tachyum 為2022 Prodigy 配備了兩個巨大的1024 位向量單元,並增加了向量寄存器寬度以匹配。因此,2022 Prodigy 的矢量寬度是2018 Prodigy 的兩倍,並且矢量吞吐量比當今任何通用CPU 都要高。甚至英特爾的Golden Cove 也只有兩個512 位向量單元。
05
緩存子系統
在重新設計Prodigy 架構以在硬件中進行更多重新排序,從而使其能夠為AI/HPC 應用程序保證更多帶寬後,Tachyum 面臨著保持這些內核輸入的挑戰,同時,提供以高速時鐘運行的1024 位向量單元也是一項艱鉅的挑戰。首先,L1D 數據路徑的寬度增加了一倍,以匹配向量長度的增加。在5.7 GHz 時,Tachyum 內核可以從其L1D 以接近1.5 TB/s 的速度加載數據。L2 可以在每個週期向L1D 提供完整的128B 高速緩存行,帶寬約為730 GB/s。相比之下,英特爾的L1D 和L2 緩存的每週期負載帶寬是Prodigy 的一半,AMD 則更落後。Zen 2 和Zen 3 在L1 和L2 的每週期帶寬是英特爾的一半。當然,Prodigy 的時鐘頻率高於Intel 或AMD 當前的CPU,因此具有巨大的緩存帶寬優勢。
Zen 2 似乎能夠通過在未記錄的性能計數器上使用計數屏蔽來跟踪至少32 個未決的L2 未命中。
為了維持高帶寬和隱藏延遲,2022 Prodigy 改進了內存級並行性(MLP)。具體來說:
這是對2018 版本的重大改進,在2018 版本中,可實現的L3 帶寬和內存將受到其低MLP 的限制。它與Zen 3 和Golden Cove 位於同一個塊,但從絕對意義上來說可能會稍遜一籌。
2022 Prodigy 還增加了緩存容量,以更好地處理具有大內存佔用的負載。L1 數據緩存的容量翻了兩番,從16 KB 增加到64 KB。與2018 Prodigy 相比,每核L2 和L3 緩存容量沒有增加,但2022 Prodigy 放棄了單獨的L2 和L3 佈局,轉而採用虛擬L3 設置。空閒內核將允許活動內核將其L2 用作虛擬L3,從而提高低線程負載的緩存命中率。當一個內核從它的L2 驅逐一條線時,它會檢查周圍的內核,看看它們的L2 是否可以接受被驅逐的線,只有屬於非活動內核的L2 緩存才會接受這些請求。
對我們來說,這個設置一點也不簡單,並且圍繞這個虛擬L3 的實現方式會有很多調整。聽起來一個物理內存地址可以緩存在多個虛擬L3 切片中,具體取決於哪些對應的內核處於空閒狀態,更多的切片檢查意味著更多的互連流量。Tachyum 還希望將數據盡可能靠近所佔用的內核,而可能的位置越少意味著這方面的靈活性越低。與Intel、AMD 和ARM 使用的更簡單的方案相比,正確設置這個虛擬L3 聽起來像是多維優化問題。
地址轉換性能也很重要,因此Tachyum 將最後一級TLB 大小從256 增加到2048 個條目。在條目數方面,它與Zen 2、Zen 3 和Golden Cove 相匹配。為了進一步提高TLB 覆蓋率,Prodigy 確實以64 KB 的頁面大小和32 MB 的大頁面來處理更大粒度的任務。2048 個條目的L2 TLB 將覆蓋128 MB 和64 KB 頁面。ARM 和x86 主要使用4 KB 頁面以及2 MB 大頁面用於客戶端應用程序。較大的頁面大小往往會浪費更多的內存,但這對於通常具有數百GB DRAM 的服務器來說並不是什麼大問題。
06
內存帶寬
對於不適合緩存的工作負載,DRAM 帶寬可能是個問題。正如我們之前提到的,Prodigy 的計算與內存帶寬比高於當前的CPU 和GPU。起初,Tachyum 試圖通過實現封裝HBM 來解決這個問題。但HBM 的容量非常低,這意味著如果Tachyum 想要佔領服務器市場,它並不是一個可行的選擇。HBM 解決方案對於HPC 和AI 應用程序來說是可以接受的,但Rado 指出,Nvidia 已經擁有該市場的大部分份額,而與服務器市場相比,剩下的市場很小。保留兩種內存選項是不可行的,因為芯片上沒有足夠的邊緣空間來容納DDR 和HBM 控制器。
因此,Tachyum 選擇了一個非常強大的DDR5-7200 設置,帶有16 個控制器,總內存總線寬度為1024 位。這使它的帶寬與Nvidia 的RTX 3090 GPU 差不多。DDR5-7200 今天還不存在,但Tachyum 預計只有AI 和HPC 客戶才需要性能最高的內存設置。這些客戶通常會購買整個系統而不是組件,從而允許集成商對可達到7200 MT/s 的內存模塊進行封裝。服務器應用程序通常不受帶寬限制,並且可以使用速度較慢的DDR5。
但即使使用DDR5-7200,Prodigy 的海量矢量單元和高時鍾意味著它比其他CPU 和GPU 具有更低的帶寬與計算比。Tachyum 希望通過使用內存壓縮來縮小這一差距,這有點像GPU 如何進行增量顏色壓縮以降低帶寬需求。但與GPU 不同的是,Tachyum 正在為AI 和HPC 應用程序調整內存壓縮算法。最後,Tachyum 以更大的粒度進行ECC,允許內存控制器使用一些ECC 線路來代替傳輸數據。
07
提高仿真性能
Tachyum 的Prodigy 引入了新的ISA,因此不會像x86 和ARM 那樣享有強大的軟件生態系統。這是一個嚴重的問題,因為如果世界上最好的芯片不能運行用戶需要的軟件,它就完全一文不值。為了解決這個問題,Tachyum 正在尋找QEMU,它可以模擬另一種架構並允許x86 和ARM 二進製文件在Prodigy 上執行。但僅QEMU 是不夠的,因為仿真性能通常很差。例如,我們在Ampere Altra 上運行QEMU 下為x86-64 編譯的CoreMark。
為了提高x86 二進製文件的仿真性能,Prodigy 可以切換到“嚴格”內存排序模式。Tachyum 也在QEMU 中完成了軟件工作以提高性能。就絕對值而言,30-40% 的性能損失仍然很嚴重。但是運行所需的軟件比絕對性能更重要,如果芯片不能運行所需的軟件,那麼世界上所有的性能都是無關緊要的,因此Tachyum 已經在QEMU 中投入了大量精力,以確保硬件至少在發佈時可用。
08
評估架構
Tachyum 對Prodigy 進行了大量修改,因此2018 和2022 版本基本上是不同的架構。總結主要的管道變化如下:
2022 Prodigy 的變化使其成為比2018 Hot Chips 上展示的版本更具競爭力的架構。Prodigy 不再嚴重依賴編譯器,採用傳統的ISA,並具有不錯的硬件重新排序功能,這些是我們對2018 版本最大的擔憂,我們很高興看到它們得到解決。2018 版本中的其他弱點,如微小的L1 緩存,也得到了糾正。這給我們留下了一個帶有巨大矢量單元的寬內核,以針對高內核數芯片的前所未聞的時鐘。
對於HPC 和AI,我預計Prodigy 將極具競爭力。它具有足夠的重新排序深度和內存級別的並行能力,可以充分利用內存帶寬。雖然它的內存帶寬與計算比率低於競爭解決方案,但Prodigy 確實有很多技巧可以緩解這種情況。即使沒有這些技巧,Prodigy 仍然擁有比AMD 的Milan 或者Genoa更強大的DRAM 子系統。富士通的A64FX 確實具有相當的DRAM 帶寬,但它使用HBM,這極大地限制了它的內存容量。
服務器市場是一個更難的問題。Prodigy 擁有不錯的大型L1 緩存、不錯的重新排序能力、非常高的時鐘速度和高核心數。但是它的分支預測器遠遠不是最先進的,每個核心的最後一級緩存容量很低(尤其是與AMD 相比)。更糟糕的是,過渡到新的ISA 對任何大公司來說都是一件頭疼的事情。不過,我認為Prodigy 有一個不錯的機會,因為它的時鐘速度優勢是如此之大,不僅可以掩蓋它的缺點,更可以讓它在核心數量和單核性能方面都比其他所有人的服務器產品都具有優勢。Tachyum 可以說服人們使用他們的新ISA 和羽翼未豐的軟件生態系統,以便利用Prodigy 的高性能。
如果Prodigy 快要實現其雄心勃勃的(高速)時鐘目標,它確實很有可能成為“通用處理器”,至少在紙面上是這樣。它將類似於GPU 的矢量吞吐量與CPU 的單線程性能相結合。代價是極高的功耗。128 核Prodigy 在加載矢量單元的情況下可以達到近950W 的功率。即使是32 核、3.2 GHz 低功耗SKU 也被指定為180W——並不比基於Zen 2 的Epyc 7502P 好,後者儘管使用了小芯片設置和較差的工藝節點,但它以類似的180W TDP 提升到3.35 GHz。在服務器中,整型計算不太可能使Prodigy 消耗TDP 數據所顯示的那麼多功率。但是高TDP 等級仍然是一個問題,因為冷卻系統必須針對最壞的情況進行設計。
09
關於5.7 GHz
就個人而言,我懷疑Prodigy 能否實現其5.7 GHz 時鐘目標。Tachyum 正在採用一些策略來幫助在高時鐘下控制功率和麵積。我們目前無法確切透露那是什麼,但我認為這還不夠。將兩個1024 位向量單元推送到這些時鐘將是一項令人難以置信的壯舉。流水線長度看起來太短了。在2018年, Prodigy 有一個從取指令到執行指令的9 階段整型流水線。在2022年Prodigy 增加了一個用於硬件依賴檢查的階段,使整型流水線達到10 個階段。對於以5.7 GHz 為目標的設計來說,這非常短。作為比較,Agner Fog 指出,在英特爾的Golden Cove 上,錯誤預測懲罰(對應於流水線長度)超過20 個週期。AMD 的優化手冊稱Zen 3 的誤判懲罰範圍為11-18 個週期,常見情況為13 個週期。流水線長度與Prodigy 相似的CPU 無法達到5 GHz。Neoverse N1 有11 級流水線,運行頻率不高於3.3 GHz。AMD 的Phenom 有12 個週期的錯誤預測懲罰,運行頻率為3.7 GHz。
如果我們就Tachyum 的芯片圖而言,假設它佔據500 mm2,單個Prodigy 內核的空間遠低於3 mm2,從而引發熱點問題。
發熱問題也須考慮。AMD 的Zen 3 的時鐘頻率可以超過5 GHz,但在低線程負載下面臨冷卻挑戰,因為它們的低核心面積意味著非常高的熱密度。Tachyum 預計Prodigy 將佔據不到500 平方毫米的空間。Tachyum 發布的模具平面圖效果圖表明,每個核心的尺寸小於3 mm2。Zen 3 核心的面積約為3.78 平方毫米,包括L2。Prodigy 核心在某些領域可能不那麼複雜,例如分支預測器,但在其他領域(例如向量單元)也更複雜。我認為當核心被推到5.7 GHz 時很可能會出現熱點問題。
最後一點,考慮策略實用性的一種方法是查看其他公司採用相同策略的頻率。如果對於一家小型初創公司來說,採用5 GHz 以上的1024 位矢量單元的8 位寬內核是可以實現的,那麼AMD、ARM 和英特爾在過去十年中肯定一直在偷懶。哦,把Nvidia 也算上——他們的Kepler、Maxwell 和Pascal 架構有32 位寬的FP32 ALU,基本上是1024 位。或者,要讓一個廣泛的架構達到如此高的時鐘頻率真的很難,而且小型初創公司不太可能做到這一點。我並不是說Prodigy 不可能達到5.7 GHz,因為AMD 的Zen 4 顯然達到了5.85 GHz。也許台積電的5nm 工藝就是這麼神奇。但是通過巨大的矢量單元、高核心數和相對較短的流水線來實現這種時鐘速度看起來像是一座太遠的橋樑。因此,讓我們看看如果Prodigy 未能達到其時鐘目標,它的競爭力將如何。
10
高性能計算和人工智能
即使沒有高時鐘,Prodigy 也有大量的吞吐量,這要歸功於巨大的矢量單元。即使在3 GHz 下,它的浮點數處理能力也穩居GPU 領域。與之競爭的CPU 甚至不在同一個層次。
*假設Golden Cove 在Sapphire Rapids 中有2×512 位向量單元
有趣的是,以較低的時鐘運行還為Prodigy 提供了更平衡的計算吞吐量與內存帶寬的比率。在5.7 GHz 時,Prodigy 需要一些技巧來減少內存帶寬瓶頸。在3 GHz 時,相對於其內存帶寬,它的計算量仍然很大。但比例不那麼不平衡。
*假設SPR 使用DDR5-5200
其他CPU 每個FLOP 的帶寬更高,但這主要是因為它們的吞吐量要低得多。GPU(和A64FX)將其有利的帶寬與計算比率歸功於容量有限的緊密集成的內存子系統。與其他服務器芯片一樣,Prodigy 可以配備數百GB 的DRAM。GPU 通常不能。
因此,Prodigy 很有可能成為具有競爭力的HPC 或AI 芯片,即使它實現不了它的時鐘目標。除非出現重大缺陷,否則受吞吐量限制的HPC 和AI 應用程序可以從Prodigy 的矢量單元中受益。Prodigy 最大的弱點,比如軟件生態系統就顯得不那麼重要,因為研究人員和AI 人員通常開發專門的系統。HPC 和AI 代碼也應該足夠規則,以至於Prodigy 較弱的分支預測器不會阻止它。
11
服務器
服務器工作負載更複雜。與競爭服務器芯片相比,Prodigy 具有較弱的分支預測器和較低的緩存緩存容量。如果沒有高時鐘,Prodigy 的單核性能可能難以與之競爭。這不一定是一個大問題——ARM 進入服務器領域表明,即使每核性能沒有競爭力,高核數芯片仍有空間(當然它必須足夠好用才行)。
但ARM在服務器市場立足的背後還有其他因素。ARM 的內核以低功耗和高密度為目標。與英特爾和AMD 不同,它們不會嘗試涵蓋廣泛的功率和性能目標。這種專業化讓ARM 創建了適合雲應用程序的更高核心數的芯片,同時保持在可接受的功率和成本目標範圍內。該專業化通過犧牲矢量吞吐量和峰值性能,從而使用較小的矢量單元和密集設計那些沒有那麼高時鐘速度的單元。Prodigy 具有比任何x86 芯片更大的矢量單元和更高的時鐘,因此它很有可能不會像ARM 內核那樣縮減到低功耗。
如果Prodigy 沒有達到如此高的時鐘,我認為他們沒有明確的方法來搶占服務器市場的一部分。他們不太可能在高密度市場上超越ARM。如果沒有巨大的時鐘速度優勢,它們不太可能在低線程工作負載中擊敗x86 內核。並且當Tachyum 致力於讓Prodigy 被流片出來時,沒有人會坐以待斃。AMD 正在準備發布基於Zen 4 的Genoa 和Bergamo。後者將擁有128 個Zen 4 核心,並減少緩存設置,與Prodigy 的核心數量相匹配。Ampere Computing 正在開發Altra 的繼任者,它可能具有超過128 個內核。Prodigy 當然會保留矢量吞吐量優勢,但矢量吞吐量並不是服務器市場的決定性因素,就像HPC 和AI 一樣。
12
結論
技術趨勢通常是循環的。幾十年前,服務器、客戶端系統和超級計算機慢慢融合以使用類似的硬件。例如,在2000 年代後期,AMD 的六核K10 芯片在客戶端系統中作為Phenom X6 提供服務,在服務器和超級計算機中作為Opteron 2435 提供服務。但在過去十年中,這種趨勢一直在緩慢逆轉。超級計算機通常使用GPU 加速來提高吞吐量,而針對HPC 的GPU 架構和針對客戶端平台的架構之間的差異越來越大。Ampere 和亞馬遜已經為雲計算優化了專門的服務器芯片。英特爾和AMD 在所有三個類別中仍然使用相同的架構,但即使這樣,它們也在定制芯片以適應不同的市場。例如,服務器形式的Skylake 將額外的L2 和矢量單元附加到核心上,並使用網狀互連。AMD 計劃以第二種形式發布Zen 4,名為Zen 4c,它以緩存容量換取核心數量,應該更適合雲計算。
Tachyum 的Prodigy 代表了逆勢而上的勇敢嘗試。它將GPU 的矢量吞吐量與CPU 的單線程性能相結合,但代價是高功耗。然而,我們仍然懷疑Tachyum 如何在面臨所有障礙的情況下實現這一切。我們確實向Tachyum 詢問了他們是如何實現500mm2 的CPU 的,雖然我們無法透露他們告訴我們的內容,但我們仍然對他們在N5 上實現這一點持懷疑態度,因為他們不僅擁有大量矢量單元,還由於芯片上有大量的DDR5 和PCIe 5的PHY,導致的大規模模擬電路的數量。
即使Prodigy 按計劃進入市場,它也將面臨激烈的競爭老牌玩家及其專業產品。使用單一架構服務於不同的細分市場將使Tachyum 能夠利用其有限的工程資源擴大其業務範圍。但是,除了專注於工程工作之外,該策略並沒有太多優勢。你不能僅僅因為兩者都使用相同的芯片,就讓服務器充當HPC 節點的雙重職責。超級計算集群具有極高速的網絡和分佈式存儲,因此節點可以一起解決同一個問題。數據中心不會有同樣的高速網絡,因為響應互聯網請求不需要幾乎一樣多的帶寬。最後,Tachyum將面臨一場艱苦的戰鬥,以建立圍繞其ISA的軟件生態系統,同時在途中遭受二進制翻譯處罰。對於一家小型初創公司來說,要處理很多事情,我們祝他們好運。