又一云廠商因光纜被切出故障AWS中國近12小時大面積癱瘓
從凌晨2點到下午1點48分,亞馬遜旗下云服務商AWS中國區熬過了漫長的11小時48分。作為AWS中國區的員工,方遠(化名)一早被電話吵醒。一家創業公司的客戶過來抱怨自家APP連不上服務器了。事情比方遠想像的嚴重。掛完電話,方遠才發現公司的大小微信群已經炸了鍋。
按照AWS中國的官方聲明,因為隔夜道路施工中有幾處光纜被切斷,導致可用區無法鏈接Internet,使得AWS中國業務大規模出現故障。
包括方遠在內的員工們也很懵,幾處光纜被切斷怎麼會影響整個北京區域的這麼多服務?
但這一事故的影響已經在不斷發酵,包括VIPKID、流利說、三星應用商店等多個用戶都均受到不同程度的影響。亞馬遜中國官網(www.amazon.cn)的頁面也一度崩潰。
因為正逢6·18大促,流利說的助教張豐(化名)正忙著推廣自家的促銷信息。這邊張豐剛向學員介紹完自家的課程計劃,就在微信上被學員告知流利說APP的定制課程已經根本打不開。很快,張豐接到公司緊急通知,是因為公司的雲計算服務商AWS出現故障。
接下來,張豐的工作重點不得不變成安撫各路學員。直到下午1點多,張豐終於開始群發消息,通知學員們APP“服務”已經逐步恢復中。
類似的尷尬在VIPKID的各個家長群同時上演。
有客戶在微信上評論道:“這是我從業以來經歷最長的一次故障修復時間,AWS這次事故處理的時間效率太低了,我表示很失望。”
為了保障服務不中斷、數據不丟失,一般業務系統、數據都有多個備份。而在雲計算中,為了保障數據中心內業務系統的可用性,數據中心基礎設施也會採取類似的冗餘備份,提高系統可用性。
有業內人士認為,此次AWS光纜被切斷導致近12小時大面積服務癱瘓是因為沒有做好網絡冗餘設計。
網絡冗餘設計主要通過重複設置網絡鏈路和網絡設備冗餘措施。網絡鏈路冗餘是指為確保業務正常運轉,除配置主線路外,同時做好第二種、第三種線路的部署。
主備線路隔的位置比較遠,因此,一旦主線路出現故障,還有其他線路保證網絡的可用性。例如,接入互聯網時,同時採用不同電信運營商線路,相互備份且互不影響,但這樣一來,成本也會增大。
據悉,AWS北京區域使用的是光環新網的數據中心,記者多次致電光環新網客服電話,均無法接通。據光環新網官網顯示,該公司在北京擁有酒仙橋、太和橋、光環新谷、東直門、房山和亦莊6個數據中心,每個都擁有高達100G的BGP總出口帶寬,多運營商通信鏈路。
“本來一個機房,各家運營商鏈路應該有自己的連通方式。但是也有可能機房在施工時先匯總各家運營商到一條主幹線,到某一節點之後再分開。但冗餘是有成本的,不是所有場景所有環節都冗餘的。對於雲廠商來說,網絡線路都是租運營商的,都是錢啊。”上述業內人士指出。
因為光纜被切斷導致服務癱瘓的並不少見。2015年,因為當地市政建設施工方挖斷了光纜,支付寶PC網頁和手機客戶端都出現無法登錄、網絡異常等現象。後來,支付寶改成了冗餘設計。
2018年9月雲棲大會上,螞蟻金服發布了“三地五中心金融級高可用方案”,並現場演示了“剪網線”,經過26秒容災切換完成,恢復業務。
而在2018年7月,因騰訊雲廣州一區的主備兩條運營商網絡鏈路同時中斷,騰訊雲廣州區域部分用戶出現資源訪問失敗、控制台登錄異常等情況。
2019年3月,騰訊旗下多項服務出現服務器未響應問題。隨後,騰訊雲發佈公告稱,因上海南匯網絡光纖因施工被意外挖斷,導致該區不少互聯網公司的業務受到不同程度的影響。
由於有備用鏈路,騰訊云隨即啟動流量智能調度系統,將上海地區公網流量通過騰訊雲內部T級骨幹網,引導至騰訊雲廣州區電信出口,再由電信骨幹網直達浙江電信。此次光纖故障從發現到恢復只有兩分鐘,並且所有流程自動化執行,在150秒之內就快速恢復了網絡。
不過,即使有冗餘備份,對於業務也並非毫無影響,“備用鏈路一般會慢一些,而且大家都擁到小路上,自然就擠了,體驗上就是慢。”一云服務商告訴記者。
此前,UCloud創始人兼CEO季昕華表示“雲計算公司有四大謊言,分別是雲計算先服務於內部客戶,再服務於外部客戶;雲計算能保證100%的安全;雲計算消耗大量資金;雲計算是不盈利的。”
“雲計算雖然比本地研發更安全,但不可能是100%。就算微軟、亞馬遜、谷歌、阿里、騰訊一樣都會出問題。所以用戶更願意使用多家云來服務,多雲戰略是未來的重要方向。”他指出。
也有廠商呼籲,隨著雲計算和數據中心越來越重要,光纜、管道等基礎設施的保護也需要跟上,現在破壞的成本太低了。