1.384億個線程Intel全新處理器可以實現131072顆互連
近日,在美國加利福尼亞舉行的Hot CHIPS會議上,Intel展示了一款代號為“Piuma”的具有1TB/s矽光子互連的8核528線程處理器,旨在用於處理最大的分析工作負載。
7nm工藝8核心528線程
據介紹,Piuma芯片基於台積電7nm FinFET工藝製造(如果你不知道的話,Intel在台積電製造了很多非CPU產品,而且已經有很多年了),它有八個核,每個核具有66個線程,總共528線程,晶體管數量超過276億個。
△芯片中心的一個重要部分專門用於路由器,這些路由器控制從共封裝光學器件流入的數據流
需要指出的是,該芯片並不是基於x86架構的,它是專門為DARPA(美國國防高級研究計劃局的分層身份驗證漏洞(HIVE)程序使用自定義RISC架構構建的。
美國的這項軍事舉措旨在開發一種圖形分析處理器,該處理器能夠以比傳統計算架構快100倍的速度處理流式數據,同時功耗更低。
雖然這對DARPA來說可能是一件奇怪的事情,但該政府機構認為大規模圖形分析在基礎設施監控和網絡安全方面有應用。
Intel首席工程師Jason Howard在他的Hot Chips演示中指出的應用例子是社交網絡,它可以運行圖形分析工作負載來了解成員之間的聯繫。
這項創建大規模並行圖形處理和互連芯片項目時間起源於2017年,Intel被選為製造HIVE 處理器的供應商,麻省理工學院的林肯實驗室和亞馬遜網絡服務被選為基於此類處理器的系統創建和託管萬億邊圖形數據集以供分析。
雖然Intel曾在2019和2022年對於“Piuma”處理器進行過一些介紹,但是在本週的Hot CHIPS大會上,Intel首席工程師Jason Howard進一步詳解了Piuma處理器和系統,其中包括Intel與Ayar Labs 合作創建的光子互連技術,用於將大量處理器連接在一起。
在2012年,超級計算機製造商Cary推出的XMT系列就是一個巨大的共享內存線程的怪物,非常適合圖形分析。
它擁有多達8,192 個處理器,每個處理器有128 個以500 MHz 運行的線程,插入Opteron 8000 使用的AMD Rev F 插槽系列X86 CPU 全部與定制的“SeaStar2+”環面互連捆綁在一起,該互連提供105 萬個線程和512 TB 共享主內存,供圖形發揮作用。
就Linux 系統而言,這看起來就像一個單一的CPU。
The nextplatform認為,“Piuma”處理器就像是再次將舊的東西變成新的,雖然處理器本身比較普通,但其使用的矽光子互連技術更好,想必性價比也是如此。
也許Intel會將這個Piuma系統商業化,並真正改變一切。
全新的內存架構設計Jason Howard表示,當Intel開始設計“Piuma”處理器時,從事HIVE 項目的研究人員意識到圖形處理不僅是大規模並行,這意味著可能有一些方法可以利用這種並行性來提高圖形分析的性能。
當在標準X86 處理器上運行時,圖形數據庫的緩存行利用率非常低,在圖形數據庫運行的80% 以上的時間裡,72 字節緩存行中只有8 字節或更少被使用。指令流中的大量分支給CPU 管道帶來了壓力,而內存子系統也因依賴負載的長鏈而承受了很大的壓力,這對CPU 上的緩存造成了很大的影響。
Piuma芯片有四個管道,每個管道有16 個線程(稱為MTP),還有兩個管道,每個管道有一個線程(稱為STP),其性能是MTP中一個線程的8倍。處理核心基於定制的RISC指令集,但是並未明確具體情況。
Jason Howard在他的Hot Chips演示中解釋道:“所有的管道都使用自定義ISA,它類似於RISC,是一個固定的長度。” “每個管道都有32個可用的物理寄存器。我們這樣做是為了方便您在任何管道之間遷移計算線程。因此,也許我開始在一個多線程管道上執行,如果我發現它花費了太長時間,或者可能是最後一個可用的線程,我可以快速遷移到我的單線程管道上,以獲得更好的性能。
STP 和MTP 單元通過交叉開關連接,並具有組合的192 KB L1 指令和L1 數據緩存,並且它們鏈接到比L2 緩存更簡單的共享4 MB 暫存器SRAM 存儲器。
每個Piuma芯片都有8 個活動核心,每個核心都有自己定制的DDR5 內存控制器,該控制器具有8 字節訪問粒度,而不是像普通DDR5 內存控制器那樣具有72 字節訪問粒度。每個插槽都有32 GB 的定制DDR5-4400 內存。
Jason Howard解釋說,Piuma芯片所採用的新穎的內存架構,這是優化圖形分析工作負載的一個重要內容。這些芯片與32GB DDR5-4400內存配對,通過允許8字節訪問粒度的自定義內存控制器進行訪問。
根據Jason Howard的說法,這是有利的,因為“每當我們從內存中取出一條數據線時,我們都會嘗試利用所有的數據線,而不是扔掉7/8的數據線。”
1TB/s矽光互連,可以連接超過10萬個芯片
“Piuma”芯片被認為是Intel首個直接網狀光子結構的一部分,Intel並沒有使用銅線將多個芯片縫合在一起,而是使用了使用矽光子互連技術,使用了共封裝光學器件( CPO)可以將數百甚至數千個芯片連接在一個低延遲、高帶寬的網絡中。
這是一個不錯的想法,但無論如何,該芯片仍然是一個原型。
Intel的目標是開發可以擴展的技術,以支持最大的圖形分析工作負載。
△圍繞中央計算芯片的四個小芯片為Intel這個原型芯片提供1TB/s的光學帶寬
雖然該芯片最初看起來是一個標準處理器,它甚至有一個相當典型的BGA接口,與Xeon-D芯片上的接口沒有什麼不同,但I/O芯片的大部分數據都是使用與Ayar Labs合作開發的矽光子芯片進行光學傳輸的。
中央處理器周圍的四個小芯片將進出處理器的電信號轉換為32根單模光纖攜帶的光信號。正如我們所理解的,這些光纖束中的16根用於傳輸數據,另16根用於接收數據。
根據Intel的說法,每根光纖都可以在芯片內外以32GB/s的速度傳輸數據,總帶寬為1TB/s。
該光纖網絡可以將超過100000個“Piuma”芯片配置聯網在一起,任何一個芯片都可以以非常低的延遲與另一個芯片通信。
△進出Intel原型處理器的數據都是通過光學傳輸的
Intel還必須找到一種方法來處理進出計算芯片的巨大數據流,理論上需要高達1TB/s。根據Jason Howard的說法,這一要求使得Piuma芯片內部大量區塊專用於路由器的原因。
具體來說,Piuma芯片的每個核心都有一對路由器,將2D 網格中的核心相互鏈接、鏈接到八個內存控制器以及四個高速高級接口總線(AIB) 端口。
AIB 是Intel於2018 年推出的用於互連小芯片的免版稅PHY。Ayar Labs 的芯片有32 個光學I/O 端口,每個AIB 8 個,每個方向可提供32 GB/秒的帶寬。
以下是在PIUMA 封裝上實現2D 網格的片上路由器的深入分析:
這是一個十端口直通路由器。2D 網格以1 GHz 運行,需要四個週期來遍歷路由器。它有10 個虛擬通道和四種不同的消息類別,Jason Howard表示這可以避免網格上的任何死鎖,並且為路由器內的每個鏈路提供64 GB/秒的速度。
Piuma芯片上的路由器和核心封裝比想像的要復雜一些,如下圖:
它更像是芯片上有16 個核心/路由器單元,其中只有8 個核心被激活,因為芯片上網格需要兩倍數量的路由器來饋入AIB,而AIB 又饋入Ayar Labs 芯片光子學。矽光子鏈路僅用作物理層,它們專門用於擴展多個插槽之間的片上網絡。
比如,由16 個使用矽光子鏈路的Piuma芯片組成的網絡可以以全對全配置的4 x 4 網格連接在一起。
每個Piuma芯片在標稱電壓和工作負載下消耗約75瓦,這意味著它消耗約1200瓦。
考慮到一個具有112個內核和224個線程的單雙插槽Intel Sapphire Rapids系統在負載下可以很容易地消耗那麼多功率,Piuma芯片的功耗表現還不錯。
Piuma芯片具有1 TB/秒的光學互連能力,可以將多達131,072個芯片連接在一起,形成一個大型共享內存的圖形處理超級計算機。
路由器就是網絡,所有設備都通過HyperX 拓撲進行連接,而不是直接連接到機架內的所有拓撲,每個機架內將有16個Piuma芯片。
16 個Piuma芯片,則意味著擁有128 個內核、8,448 個線程和512 GB 內存。
HyperX 網絡的第一級擁有256 個芯片,包含32,768 個核心、270,336 個線程和1 TB 內存。
升級到HyperX 網絡的二級,則可以構建一個包含16,384 個芯片,包含210 萬個核心、1730 萬個線程和64 TB 共享內存的Piuma芯片集群。
最後,在HyperX 網絡的第三級,則可以擴展到131,072 個芯片,擁有1680 萬個核心、1.384 億個線程和512 PB 共享內存。
每個Piuma芯片節點通過單模光纖連接在一起,有趣的是,Piuma網絡設計所實現的帶寬(每方向16 GB/秒)僅具有理論設計點的帶寬。
但即便如此,這仍然是一個巨大的帶寬怪獸,理論上整個HyperX 網絡的單向平分帶寬為16 PB/秒。
挑戰依然存在
Intel此次成功展示Piuma芯片,並不是說其在光學器件研發方面沒有遇到挑戰。Jason Howard說,在測試中,Piuma芯片實際的矽光互連速率只達到了預計(1TB/s)的一半,並且光纖還經常出現故障。
Jason Howard說:“一旦我們把所有東西都調好並工作起來,就會出現很多纖維附著問題,因為這些都是脆性纖維,它們就會脫落。” “我們還看到,當我們對整個封裝進行回流工藝時,由於熱結果,我們會遇到光學問題,最終會產生糟糕的光學成品率。”
Jason Howard解釋說,為了克服這些挑戰,Intel必須與合作夥伴合作開發具有較低熱障的新材料。
到目前為止,Intel已經構建了兩塊主板,每塊板都配有一個Piuma芯片,並將它們互連起來以運行測試並向DARPA 證明其有效。
現在的問題是,這樣一台機器的大規模成本是多少?
嗯,以每個節點750 美元計算,這根本不算什麼,對於一個具有4,096 個Piuma芯片的HyperX 一級系統來說,大概需要310 萬美元;對於一個具有262,144 個Piuma芯片的HyperX 二級系統來說,成本接近2 億美元;而對於一個具有210萬個Piuma芯片的HyperX 三級系統來說,成本將達到15.7億美元。
Intel設想,Piuma芯片可以構建到包含超過10萬個芯片的網格中,即使是最大的圖形分析工作負載,也可以實現近乎線性的性能擴展。然而,目前這還只是個夢想,因為Intel迄今為止只測試了兩個連接在其結構上的芯片。
Jason Howard解釋說,Intel是否會將該設計商業化將取決於資金。“如果有客戶可以給我們資金支持,我們非常歡迎建造這些東西。”