SRE超載系統導致谷歌發布宕機事故分析報告
谷歌發布了12日大面積服務中斷事故的分析報告,指出系SRE超載系統使得Google雲存儲錯誤率提高導致。12日全球各地的許多用戶反映使用Gmail、YouTube、Google Drive、谷歌音樂與穀歌的其它服務時都遇到了問題。
包括北美洲、南美洲、歐洲和亞洲的部分地區都受到影響,谷歌隨後承認出現故障,谷歌云平台狀態頁面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌云存儲的所有區域。
當地時間14 日,谷歌發布了針對該事件的分析報告。
谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障。
更具體的,12 日18:40 到22:50,谷歌內部blob 存儲服務錯誤率提高,平均錯誤率為20%,事件發生時錯誤率為31%,用戶可見的Google 服務,包括使用blob 存儲服務的Gmail、照片和Google 雲硬盤錯誤率也提高了,如果沒有這些服務中內置的緩存和冗餘機制極大地降低了用戶影響,那麼後果會更加嚴重。
此次事故中,重大的影響包括:Google 雲存儲的長尾延遲較高,平均錯誤率為4.8%,所有存儲桶位置和存儲類都受到影響,依賴於雲存儲的Google 雲平台服務也受到影響;Stackdriver Monitoring 在檢索歷史時間序列數據時出現了高達5% 的錯誤率,最近的時間序列數據可用,警報沒有受到影響。App Engine 的Blobstore API 出現了較高的延遲和錯誤率,在獲取blob 數據時達到峰值21%,App Engine 部署出現了高達90% 的錯誤,從App Engine 提供靜態文件也會出現錯誤率提升。
谷歌表示非Google 雲平台服務受到的影響將會有單獨的事件報告。
對於因此事件受到影響的服務與應用客戶,谷歌深表歉意,並表示正在採取措施以提高可用性並防止此類中斷再次發生。
詳情查看: