Backblaze發布2023年第二季度硬盤工作表現統計數據年故障率有所上升
最大的雲存儲公司之一Backblaze 發布了其硬盤季度統計數據,其中包括故障率等重要方面。這些結果是通過詳細測試和大量抽樣得出的。該公司測試的硬盤(HDD)總數達到了驚人的241297 塊。實際數字略高於這個數字,因為該公司在測試時移除了357 塊硬盤。根據製造商和獲得的結果,彙編的數據共涉及240940 塊硬盤,分為31 個不同的組別。
分析結果可以看出,本季度的AFR(年化故障率)為2.28%,與上一季度的AFR(年化故障率)1.54% 相比,有了明顯的躍升。雖然作者將AFR 的結果表述為”不穩定”,但這一增長也讓公司備受質疑。AFR 的上升趨勢主要是由於硬盤老化所致,因為8TB 和10TB HDD 等高存儲容量硬盤並沒有達到預期。
深入探討有趣的部分,Backblaze 提到,他們平均運行時間最長的硬盤是6TB 希捷(型號:ST6000DX000),其正常運行時間為8.2 年。運行時間最長的硬盤是4TB 希捷(型號:ST4000DM000),達到8.8 年。此外,在零故障方面,Backblaze 還發現希捷和東芝等公司的幾款產品在達到”零故障”里程碑之前,至少運行了50000 日。
終身硬盤故障率也在增加,原因如下:
我們之前提到,8TB 和10TB 硬盤是季度AFR 大幅上升的罪魁禍首。Backblaze 對終身AFR 進行了分析,發現它也增加了0.05%,從而證實了這一說法。通過測試,該公司發現8TB 和10TB 硬盤是AFR 上升的主要原因。
你可以看到下面的圖表,其中列出了測試的存儲設備,”紅色”基線表示AFR,上面的所有值都是導致AFR 增加的原因,下面的所有值都是從AFR 值中減去的。
該公司沒有說明這種模式背後的原因,但可以考慮幾種可能的原因,如溫度、硬盤質量等。作者安迪-克萊因(Andy Klein)向讀者保證,”硬盤故障”已成為雲計算行業的常態。
以下是他的觀點:
我們是否擔心硬盤故障率的增加?我們當然希望看到故障率降低,但硬盤故障是雲存儲業務無法迴避的現實。多年來,我們看到不同製造商、不同型號和不同大小的硬盤故障率差異很大。如果你沒有為此做好準備,就容易遭遇故障。
我們中的許多人肯定會思考這項廣泛研究背後的動機,尤其是關於”硬盤故障”的研究。Backblaze 除了是一家領先的雲計算公司外,還努力提供此類數據,這不僅有助於製造企業,也有助於普通消費者甚至商業買家。這涉及到大量的工作,我們不會忘記感謝該公司發佈如此詳細的數據。