又一云廠商因光纜被切出故障AWS中國近12小時大面積癱瘓

從凌晨2點到下午1點48分，亞馬遜旗下云服務商AWS中國區熬過了漫長的11小時48分。作為AWS中國區的員工，方遠（化名）一早被電話吵醒。一家創業公司的客戶過來抱怨自家APP連不上服務器了。事情比方遠想像的嚴重。掛完電話，方遠才發現公司的大小微信群已經炸了鍋。

按照AWS中國的官方聲明，因為隔夜道路施工中有幾處光纜被切斷，導致可用區無法鏈接Internet，使得AWS中國業務大規模出現故障。

包括方遠在內的員工們也很懵，幾處光纜被切斷怎麼會影響整個北京區域的這麼多服務？

但這一事故的影響已經在不斷發酵，包括VIPKID、流利說、三星應用商店等多個用戶都均受到不同程度的影響。亞馬遜中國官網（www.amazon.cn）的頁面也一度崩潰。

因為正逢6·18大促，流利說的助教張豐（化名）正忙著推廣自家的促銷信息。這邊張豐剛向學員介紹完自家的課程計劃，就在微信上被學員告知流利說APP的定制課程已經根本打不開。很快，張豐接到公司緊急通知，是因為公司的雲計算服務商AWS出現故障。

接下來，張豐的工作重點不得不變成安撫各路學員。直到下午1點多，張豐終於開始群發消息，通知學員們APP“服務”已經逐步恢復中。

類似的尷尬在VIPKID的各個家長群同時上演。

有客戶在微信上評論道：“這是我從業以來經歷最長的一次故障修復時間，AWS這次事故處理的時間效率太低了，我表示很失望。”

為了保障服務不中斷、數據不丟失，一般業務系統、數據都有多個備份。而在雲計算中，為了保障數據中心內業務系統的可用性，數據中心基礎設施也會採取類似的冗餘備份，提高系統可用性。

有業內人士認為，此次AWS光纜被切斷導致近12小時大面積服務癱瘓是因為沒有做好網絡冗餘設計。

網絡冗餘設計主要通過重複設置網絡鏈路和網絡設備冗餘措施。網絡鏈路冗餘是指為確保業務正常運轉，除配置主線路外，同時做好第二種、第三種線路的部署。

主備線路隔的位置比較遠，因此，一旦主線路出現故障，還有其他線路保證網絡的可用性。例如，接入互聯網時，同時採用不同電信運營商線路，相互備份且互不影響，但這樣一來，成本也會增大。

據悉，AWS北京區域使用的是光環新網的數據中心，記者多次致電光環新網客服電話，均無法接通。據光環新網官網顯示，該公司在北京擁有酒仙橋、太和橋、光環新谷、東直門、房山和亦莊6個數據中心，每個都擁有高達100G的BGP總出口帶寬，多運營商通信鏈路。

“本來一個機房，各家運營商鏈路應該有自己的連通方式。但是也有可能機房在施工時先匯總各家運營商到一條主幹線，到某一節點之後再分開。但冗餘是有成本的，不是所有場景所有環節都冗餘的。對於雲廠商來說，網絡線路都是租運營商的，都是錢啊。”上述業內人士指出。

因為光纜被切斷導致服務癱瘓的並不少見。2015年，因為當地市政建設施工方挖斷了光纜，支付寶PC網頁和手機客戶端都出現無法登錄、網絡異常等現象。後來，支付寶改成了冗餘設計。

2018年9月雲棲大會上，螞蟻金服發布了“三地五中心金融級高可用方案”，並現場演示了“剪網線”，經過26秒容災切換完成，恢復業務。

而在2018年7月，因騰訊雲廣州一區的主備兩條運營商網絡鏈路同時中斷，騰訊雲廣州區域部分用戶出現資源訪問失敗、控制台登錄異常等情況。

2019年3月，騰訊旗下多項服務出現服務器未響應問題。隨後，騰訊雲發佈公告稱，因上海南匯網絡光纖因施工被意外挖斷，導致該區不少互聯網公司的業務受到不同程度的影響。

由於有備用鏈路，騰訊云隨即啟動流量智能調度系統，將上海地區公網流量通過騰訊雲內部T級骨幹網，引導至騰訊雲廣州區電信出口，再由電信骨幹網直達浙江電信。此次光纖故障從發現到恢復只有兩分鐘，並且所有流程自動化執行，在150秒之內就快速恢復了網絡。

不過，即使有冗餘備份，對於業務也並非毫無影響，“備用鏈路一般會慢一些，而且大家都擁到小路上，自然就擠了，體驗上就是慢。”一云服務商告訴記者。

此前，UCloud創始人兼CEO季昕華表示“雲計算公司有四大謊言，分別是雲計算先服務於內部客戶，再服務於外部客戶；雲計算能保證100%的安全；雲計算消耗大量資金；雲計算是不盈利的。”

“雲計算雖然比本地研發更安全，但不可能是100%。就算微軟、亞馬遜、谷歌、阿里、騰訊一樣都會出問題。所以用戶更願意使用多家云來服務，多雲戰略是未來的重要方向。”他指出。

也有廠商呼籲，隨著雲計算和數據中心越來越重要，光纜、管道等基礎設施的保護也需要跟上，現在破壞的成本太低了。

WONGCW 網誌