Linux 6.1將於十月迎來新補丁有助於定位潛在故障的CPU插槽或核心
對於日常需要接觸並維護大量硬件的服務器管理員來說,這裡有個好消息—— Linux 6.1 將能夠在發生Segmentation Fault 分段錯誤時,報告潛在有問題的CPU 插槽/ 核心。當發現某個CPU / 核心經常引發同樣問題的時候,這項新特性就能夠幫你更輕鬆的排查相關故障。
(截圖via Kernel.org)
Phoronix指出:當前正在TIP 排隊的x86 / cpu 分支合併窗口,將於10 月份帶來一項改進。該補丁用於在分段錯誤發生時,記錄下有故障嫌疑的CPU / 核心。
若經常發現某一顆處理器、或特定內核遇到Segmentation Fault,打印下的內容將有助於排場插槽或CPU 核心問題。Rik van Riel 在公告中寫道:
在規模足夠大的計算機群中,壞掉個別CPU 還是相當常見的。按照設想,我們可通過內核代碼的運行來辨識,以找出在特定係統上不斷重複崩潰的CPU 內核。不過多年來,出現問題的CPU 故障模式,並不是千篇一律的。有時你可能只會揪出bash、Python,或在在其它地方運行良好的各種系統守護程序中遇到分段錯誤。
有鑑於此,通過將printk() 添加到show_signal_msg(),我們便可在遇到Segmentation Fault 時,打印出有潛在故障的處理器插槽或內核等信息。儘管這項工作仍不夠完美—— 因為在故障發生和打印消息之間,任務可能還會在另一個CPU 上被重新安排—— 但這項工作已足夠幫助人們定位到哪幾個可能有內核損壞的CPU 上。
如果一切順利,這個實用補丁將於今年晚些時候正式併入Linux 6.1 。此外你可將它視作英特爾現場掃描(Intel In-Field Scan)、MCEs、EDAC 報告等解決方案的一個有力補充。