Azure出現設備故障時微軟在澳大利亞數據中心園區只有三名員工
上週,微軟數據中心園區的員工人數”不足”,因為電力供應能力下降導致兩個數據大廳的冷卻設備斷電,部分存儲硬件被燒毀。該公司發布了一份關於此次大規模故障的初步事故後報告(PIR),包括昆士蘭銀行和捷星航空在內的大型企業客戶完全中斷了服務。 該報告揭示了一些企業完全失去服務的原因:在此次事故中,許多存儲節點被主動關閉或組件燒毀,以至於數據及其所有副本都處於離線狀態。 此外,在存儲節點最終恢復後,託管25 萬多個數據庫的”租戶環”也發生了故障,儘管對客戶的影響並不均衡。微軟表示,兩個受影響數據大廳的冷卻能力”由七個冷卻器組成,其中五個冷卻器處於運行狀態,兩個冷卻器處於備用狀態(N+2)”。電源下陷(電壓驟降)導致五個運行中的冷卻器出現故障。此外,只有一台備用機組工作。微軟表示,現場工作人員”執行了我們記錄在案的應急操作程序(EOP),試圖使冷卻器重新啟動,但沒有成功”。該公司似乎被此次事件的規模嚇到了,現場沒有足夠的工作人員,而且其應急程序也沒有考慮到問題的規模。公司表示:”由於數據中心園區的規模,夜間團隊的人員配備不足以及時重啟冷卻器。在更好地了解根本問題並採取適當的緩解措施之前,我們已暫時將團隊人數從3 人增至7人。”關於其EOP,微軟表示”對於影響半徑如此之大的事件而言,重新啟動冷卻器的EOP 執行起來比較緩慢。””我們正在探索改進現有自動化的方法,以提高對各種電壓驟降事件類型的應變能力。”雖然沒有足夠的員工來執行記錄在案的程序,但如果有更多的員工,就能更快地達到同樣的效果,因為冷水機組本身就存在問題。初步調查顯示,冷水機組沒有自動重新啟動,”因為相應的泵沒有從冷水機組獲得運行信號”。“這一點非常重要,因為它是成功重啟冷水機組不可或缺的因素,”微軟公司表示。”我們正在與我們的OEM 供應商合作,調查為什麼冷卻器沒有命令各自的泵啟動。”由於冷凍水迴路溫度已超過閾值”,因此無法手動重啟故障冷水機組。隨著溫度的升高,以及基礎設施發出的熱警告,微軟別無選擇,只能關閉服務器。這成功地使冷卻水迴路溫度降至所需閾值以下,並恢復了冷卻能力。不過,並非一切都能順利恢復。這次事故影響了七家存儲租戶,其中五家為”標準”租戶,兩家為”高級”租戶。微軟表示,一些存儲硬件”因數據大廳溫度過高而損壞”。由於存儲節點處於離線狀態,因此無法進行診斷以排除故障。”因此,我們的現場數據中心團隊需要手動移除組件,並逐一重新安裝,以確定是哪個(些)特定組件導致每個節點無法啟動,”微軟說。”為了成功恢復數據和恢復受影響的節點,需要更換多個組件。還需要在個別服務器中臨時重新安裝一些原始/故障組件。”基礎架構即代碼自動化也出現故障,”錯誤地批准了過期請求,並將一些健康節點標記為不健康,從而減緩了存儲恢復工作”。微軟表示,託管25 萬多個SQL 數據庫的租戶環的故障進一步減緩了恢復速度。該公司表示:”當我們試圖將數據庫從性能下降的環路中遷移出來時,SQL 手頭並沒有經過良好測試的工具,而這些工具是為在源環路處於性能下降的情況下遷移數據庫而構建的。很快,這就成為我們減輕影響的最大障礙。”最終的PIR 預計將在幾週內完成。