阿里雲宕機驚魂三小時:眾多app癱瘓會賠多少錢?
3月3日凌晨,阿里雲出現宕機故障。受宕機故障影響,華北不少互聯網公司APP、網站紛紛癱瘓,一大波程序員、運營和運維不得不從被窩裡爬起來幹活。更重要的是,這已經不是阿里雲第一次出現故障。網友“上海藍盟網絡夏立成”調侃,“阿里雲一年一宕機,今年特別早”。
而在宕機驚魂之後,人們需要思考宕機故障何以屢屢發生,事後該如何賠償?
驚魂三小時
針對阿里雲此次宕機,58高級架構師沈劍稱,事故持續了3個小時左右,事後觀察了2個小時。
宕機最直接的影響是,購買阿里雲服務的企業或APP無法正常使用。
如果說“無法使用”還是一個抽象名詞,那麼受影響的企業能夠提供比較具象的理解。
孔夫子舊書網3日發布聲明稱,由於阿里雲大規模故障,導致孔網暫時無法使用。言外之意,在宕機的這段時間內,用戶將無法在孔網購買商品。
再比如同日發布聲明的即嗨比分(一家足球賽事直播應用平台)稱,阿里雲宕機導致即嗨部分模塊出現卡頓現象,即用戶體驗出現下降。
依次類推,阿里雲出現故障面積越大,受影響的企業和用戶也就越多。
在宕機故障發生大約1小時後,阿里雲官方回應稱,華北2地域可用區C部分ECS 服務器等實例出現IO HANG,經緊急排查處理後逐步恢復。
中新社國是直通車查詢阿里雲官網顯示,阿里雲服務從地域上可以分為亞太、歐洲與美洲、中東與印度三大塊,而具體到亞太又包括華北、華東、華南、香港等13個分區。
阿里雲官網截圖
“華北2地域可用區C部分”,即華北地域中的一處。
通常,為了降低網絡時延、提高客戶訪問速度,企業會選擇購買靠近客戶的地域。
因此,此次宕機故障發生後,“華北可謂是亂成一鍋粥”。
而隨著越來越多企業及應用將數據搬上雲端,服務器上的每一個小小的宕機,都可能引發一場大災難。
阿里雲歷次宕機
作為國內最大的雲服務商,這並不是阿里雲第一次宕機。
2018年6月,阿里雲出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。官方公佈,該故障是因為運維上的一個操作失誤。事後,阿里雲表示,將敬畏每一行代碼,敬畏每一份託付。
2016年10月,阿里雲華東1地域可用區B部分也曾發生過ECS服務器IO HANG的事故。
再往前,2015年9月,阿里云云盾的安騎士產品升級觸發bug導致了用戶ECS裡的部分正常文件被誤隔離。原因是,程序員寫錯了一行代碼。也是在當年,阿里雲啟動了“百倍時間賠償計劃”。
另有媒體統計,2012年、2013年、2014年阿里雲都曾出現不同程度的故障。
據市場研究機構IDC日前報告,阿里雲市場份額位居中國第一,佔比達到43%,相當於第二至第九名的總和。排名其後的分別是,雲、中國電信、AWS、金山雲、Ucloud、微軟、百度雲和華為雲。
如此大體量,阿里雲每次的宕機都會給客戶帶來不小影響。
與其給客戶帶來的負面影響相反,阿里雲憑藉中國大市場已經躋身全球雲服務領先地位。
阿里巴巴1月30日公佈財報顯示,阿里雲營收規模為213.6億元,4年間增長約20倍,成為亞洲最大的雲服務公司。上一年,這一數字為111.7億元。
宕機如何賠償?
在此次宕機事件發生後,阿里雲表示,將根據SLA協議,盡快處理賠償事宜。
“SLA協議”即,服務等級協議(Service Level Agreement,簡稱“SLA”)。根據阿里雲官網資料顯示,對於單ECS實例,如服務可用性低於99.95%,用戶可獲得月度服務費10%、25%、100%不等的賠償。
阿里雲官網截圖
此外,華為雲、騰訊雲的賠償標準均與此相似。
一位雲計算企業工程師告訴中新社國是直通車,雲服務發生故障的賠償基本以“送時間”為主。比如此前,阿里雲就執行過“百倍時間賠償”。
阿里雲官網截圖
“但這點賠償有時候與企業的損失差距巨大。”前述工程師舉例,如果京東淘寶5分鐘不能登陸,這得損失多少錢。
針對此次宕機,也有網友提出,除了賠使用時長和代金券,還應該賠償“加班費”,不少運維和程序員從被窩裡爬起來加班。
而對企業而言,他們最關心是如何避免發生故障。
有分析人士認為,儘管雲服務商承諾99.99%的安全可靠性,但誰都有可能是那倒霉的0.01%。因此,避免故障通常有兩種做法,一種是數據備份,並定期更新;一種是不把雞蛋放在同一個籃子裡,使用一個以上的雲服務提供商。
但這無疑都會增加企業的成本。雲服務商如何更可靠,仍是一個待解之題。
張文絞/國是直通車