Linux 6.13 將報告啟動後掛起任務的數量幫助管理員判斷故障狀況
在Windows 中我們可以透過任務管理器快速查看有哪些進程正在運作以及哪些進程出現故障無回應或卡死情況,現在Linux Kernel 也要提供類似功能。當然Linux Kernel 不能提供圖形化介面,不過會在出現某些故障後呈現具體有多少個進程/ 任務出現了回應問題,維運工程師可以根據計數判斷故障狀況。
目前支援此功能的新補丁已經合併到Linux Kernel 6.13 版中,待後續該版本正式發佈及系統更新到最新核心版本後,那就可以使用卡住的任務計數。
此新增的選項是/proc/sys/kernel/hung_task_detect_count,主要功能則是用來指示系統/ 伺服器啟動以來所有掛起的任務警告數量。
例如一台連續運作超過200 天的Linux 伺服器,在長期運作的情況下必然會有某些進程出現問題,出現問題後會被記錄下來;如果某個時候掛起的進程/ 任務數突然大增,那表示伺服器肯定故障了。
這種情況下運維工程師可以根據掛起的任務數量來快速判斷伺服器是否存在軟體或硬體故障,當然不能純粹靠掛起的任務數來判斷,但這相當於警告,維運工程師需要及時進行故障排查分析具體原因。
不過到現在為止還沒有比較方便的的掛起任務數報告可以使用,這個可能還需要更多時間開發出能夠更直觀判斷情況的新功能。