互聯網的脆弱性：Facebook最長宕機事故只因一個小錯誤

美國當地時間週三，全球最大社交網絡Facebook及旗下多項服務出現技術故障，導致Facebook遭遇公司近期歷史上最長宕機。在人們的生活越來越離不開互聯網的情況下，這次宕機事故凸顯出了互聯網的脆弱性。

Facebook在周四表示，公司已經修復了一個技術故障。這個故障導致Facebook及旗下Instagram、WhatsApp以及Messenger應用出現長時間服務中斷。

此次中斷事故在部分Facebook服務上持續了近24個小時，成為Facebook近期歷史上最長宕機事故。這次令人瞠目結舌的宕機事故在提醒著人們，即便是擁有最優秀計算機科學家、尖端技術的世界最強大互聯網公司，也會受到人為失誤的破壞。

最強大公司也躲不過人為失誤

“所有大型互聯網公司都建立了多條防線，但是有時，一名工程師犯下的一個編碼錯誤就會影響到成千上萬台計算機，造成重大故障，”前Facebook首席安全官、現斯坦福大學講師亞歷克斯·斯塔姆斯(Alex Stamos)表示，“換句話說，要讓Facebook這樣的複雜計算機網絡重啟，非常非常困難。”

Facebook發言人表示，週三的一個“ 服務器配置更改”在公司網絡上產生了級聯效應。一位現Facebook員工和一位前Facebook員工對此表示，這會導致故障不斷循環，牽扯面越來越廣，無法立即修復。

這個小錯誤釀成了大禍。Instagram用戶無法查看其他人的資料、WhatsApp用戶不能發送消息，Facebook主應用上的信息流變成一片空白。

宕機事故集中在Facebook主要市場

宕機追踪DownDetector表示，該公司收到了750萬份有關Facebook應用的問題報告。相比之下，當YouTube在去年10月份發生大範圍宕機時，DownDetector只收到了270萬份問題報告。DownDetector衡量服務是否中斷一定程度上取決於計算用戶提交的問題報告數量。

“我們從未見過如此大規模的宕機事故，”DownDetector聯合創始人湯姆·桑德斯(Tom Sanders)表示，

截至當地時間週四早晨，Facebook的大部分系統服務已經恢復，該公司依舊在試圖弄明白這個故障是如何在其網絡中“興風作浪”的。Facebook管理人員強調稱，這個故障並不是由入侵或者分佈式拒絕服務攻擊等網絡攻擊引發。

小錯誤釀成大禍

多年來，Facebook一直在招聘工程師，希望在幾週內就能發布觸及數十億人的計算機代碼。“看到我的工作對這麼多人的生活產生了有意義的影響，我很有成就感，”一位員工在Facebook“求職”(careers)招聘網站上推薦Facebook工作時稱。

但是，這也意味著一位員工的錯誤就能造成影響廣泛的後果，尤其是在Facebook近期制定詳細計劃合併“應用家族”基礎設施之際。一個計算機網絡交織地越緊密，小的技術故障鑄成大錯的可能性就越高。

和其他互聯網巨頭一樣，Facebook以“從不下線”為傲。這一目標推動Facebook成為了世界上最具影響力也是受到批評最多的公司之一。有20多億用戶預計每天至少在使用一項Facebook服務。

桑德斯稱，隨著人們越來越依賴通過Facebook服務與家人和好友聊天，開展工作，他們對於Facebook的服務穩定性寄予了更大希望。

“人們對於宕機事故的容忍度下降，越來越期待Facebook能夠每年365天完美無缺地運行，”他表示。企業受衝擊更大

儘管宕機事故激怒了許多用戶，但是它對依賴Facebook網絡創收的企業造成了更緊急的後果，例如廣告。

廣告公司GroupM社交業務全球主管凱伊莉·泰勒(Kieley Taylor)表示，她的公司無法訪問Facebook系統，這意味著新的廣告活動被推遲。“宕機從來不是好事，”她表示，“幸運的是，它持續的時間相較短，但卻是全面宕機。”

她的公司依舊在設法確定有多少廣告活動受到了宕機事故的衝擊。泰勒表示，由於Facebook廣告系統採用在現收現付制(Pay-As-You-Go)，所以GroupM不必要求Facebook為尚未兌現的廣告活動退款。

GroupM把廣告轉移到了谷歌搜索、YouTube以及其他網站上，但表示鑑於Facebook的用戶規模，該社交網絡擁有獨一無二的受眾群。

“由於所有人都在這個平台上，Facebook仍舊是一個真正強大的數字營銷平台，”泰勒表示。(作者/簫雨)

WONGCW 網誌