Google 解釋週日宕機事故原因
美國時間週日Google發生了持續數小時的嚴重宕機事故,影響到了幾乎所有Google服務如Google Cloud、G Suite和YouTube,以及託管在Google雲上的服務如Snapchat、Nest、Discord。Google官方博客解釋了事故原因:服務器配置變更導致。
Google稱,配置變更原意是應用於單一區域的少數服務器,但卻錯誤應用於多個毗鄰區域的大量服務器,導致這些區域停止使用一半以上的可用網絡容量,進出這些區域的網絡流量試圖適應剩餘的網絡容量,但未能成功。
網絡開始擁堵,網絡系統對過載流量進行分類,丟棄了大部分對延遲不那麼敏感的流量,以保護少數對延遲敏感的流量。Google 稱它的工程師團隊立刻探測到了問題,但診斷和修復花了更長時間。
在事故期間,YouTube 流量下降了10%,Google Cloud Storage 下降了30%,1% 的Gmail 活躍用戶無法接收和發送郵件。