CERN團隊期待GPU計算集群可為LHC新實驗提供強大助力
對於傳統計算機架構來說,想要每秒分析多達10 億次質子碰撞、或數万次極其複雜的鉛碰撞,顯然並非易事。隨著大型強子對撞機(LHC)Run 3 數據處理需求的飆升,歐洲核子研究中心(CERN)也正通過四個大型實驗項目,來探索通過GPU 改善其計算基礎設施的方法。
(圖自:CERN)
據悉,LHC 實驗的最新升級,即將於2023 年投入使用。
考慮到傳統中央處理器(CPU)難以應付新的計算挑戰,目前正有四個大型項目在嘗試採用GPU 並行計算方案。
圖上圖所示,某Run 3 候選HLT 節點裝配了雙路AMD Milan 64 核CPU + 兩張英偉達Tesla T4 GPU 。
GPU 在圖像處理等應用場景下具有極高的效率,最初只是為了加速計算機3D 圖形渲染而打造。
但在過去的幾年裡,LHC 實驗、全球LHC 計算網格(WLCG)和CERN openlab 就已展開過這方面的研究嘗試。
而在高能物理應用中加大GPU 的計算投入,不僅能夠提升CERN 計算基礎設施的質量和規模,還有助於提升系統的整體能效。
鉛-鉛碰撞的2 ms 可視化呈現(圖自:ALICE TPC / CERN)
CERN IT 部門負責人Enrica Porcari 表示:
LHC 雄心勃勃的升級計劃,帶來了一系列令人興奮的計算挑戰。好消息是,GPU 能夠在機器學習(DL)方面提供有力的支撐,幫助研究人員解決許多問題。
自2020 年以來,CERN IT 部門提供了對數據中心GPU 平台的訪問權限,其已被證明在一系列應用中很受歡迎。
更重要的是,CERN openlab 正通過與工業界的合作研發項目,對將GPU 用於機器學習一事展開鄭重深入的調查。
與此同時,CERN 的科學計算協作小組,目前正努力幫助移植和優化實驗中的關鍵代碼。
多年前,ALICE 項目就率先在其“高級觸發在線計算機農場”(HLT)中使用了GPU,但也是迄今唯一大規模運用GPU 的實驗。
而新升級的ALICE 探測器擁有超過120 億個連續讀取的電子傳感器元件,每秒可生成超過3.5 TB 的數據流。即使經過一級數據處理,數據流量仍高達600 GB/s 。
這些數據會被放到具有250 個節點的HPC 農場展開在線分析,每個節點包含8 路GPU + 32 核CPU 。
大多數情況下,可將單個粒子檢測器信號組裝成粒子軌蹟的軟件(事件重建)工作,現均已適應了在GPU 上並行工作。
從2022 年開始,LHCb 實驗將處理4 TB/s 的數據流,並對每秒篩選出的最有趣的10 GB/s LHC 碰撞數據展開物理分析。
其獨特方法是不卸載工作,而是分析GPU 上每秒3000 萬個粒子束交叉點。自2018 年以來,隨著CPU 處理的改進,LHCb 的探測器重建能效也提升了將近20 倍。
目前研究人員正期待著使用2022 年的首批新系統調試數據,並在此基礎上讓升級後的LHCb 探測器得以發揮其完整的物理潛力。