SRE超載系統導致谷歌發布宕機事故分析報告

2019-03-15 Comments 0 Comment

谷歌發布了12日大面積服務中斷事故的分析報告，指出系SRE超載系統使得Google雲存儲錯誤率提高導致。12日全球各地的許多用戶反映使用Gmail、YouTube、Google Drive、谷歌音樂與穀歌的其它服務時都遇到了問題。

包括北美洲、南美洲、歐洲和亞洲的部分地區都受到影響，谷歌隨後承認出現故障，谷歌云平台狀態頁面（Google Cloud Status Dashboard）顯示，此次故障影響了谷歌云存儲的所有區域。

當地時間14 日，谷歌發布了針對該事件的分析報告。

谷歌表示内部 blob（大型数据对象）存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因，其指出在 3 月 11 日，Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加；3 月 12 日，为了减少资源使用，SRE 进行了配置更改，其副作用是使系统的关键部分超载以查找 blob 数据的位置，而增加的负载最终导致级联故障。

更具體的，12 日18:40 到22:50，谷歌內部blob 存儲服務錯誤率提高，平均錯誤率為20％，事件發生時錯誤率為31％，用戶可見的Google 服務，包括使用blob 存儲服務的Gmail、照片和Google 雲硬盤錯誤率也提高了，如果沒有這些服務中內置的緩存和冗餘機制極大地降低了用戶影響，那麼後果會更加嚴重。

此次事故中，重大的影響包括：Google 雲存儲的長尾延遲較高，平均錯誤率為4.8％，所有存儲桶位置和存儲類都受到影響，依賴於雲存儲的Google 雲平台服務也受到影響；Stackdriver Monitoring 在檢索歷史時間序列數據時出現了高達5％的錯誤率，最近的時間序列數據可用，警報沒有受到影響。App Engine 的Blobstore API 出現了較高的延遲和錯誤率，在獲取blob 數據時達到峰值21％，App Engine 部署出現了高達90％的錯誤，從App Engine 提供靜態文件也會出現錯誤率提升。

谷歌表示非Google 雲平台服務受到的影響將會有單獨的事件報告。

對於因此事件受到影響的服務與應用客戶，谷歌深表歉意，並表示正在採取措施以提高可用性並防止此類中斷再次發生。

詳情查看：

https://status.cloud.google.com/incident/storage/19002

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

SRE超載系統導致谷歌發布宕機事故分析報告

2019-03-15 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆