互聯網的脆弱性:Facebook最長宕機事故只因一個小錯誤
美國當地時間週三,全球最大社交網絡Facebook及旗下多項服務出現技術故障,導致Facebook遭遇公司近期歷史上最長宕機。在人們的生活越來越離不開互聯網的情況下,這次宕機事故凸顯出了互聯網的脆弱性。
Facebook在周四表示,公司已經修復了一個技術故障。這個故障導致Facebook及旗下Instagram、WhatsApp以及Messenger應用出現長時間服務中斷。
此次中斷事故在部分Facebook服務上持續了近24個小時,成為Facebook近期歷史上最長宕機事故。這次令人瞠目結舌的宕機事故在提醒著人們,即便是擁有最優秀計算機科學家、尖端技術的世界最強大互聯網公司,也會受到人為失誤的破壞。
最強大公司也躲不過人為失誤
“所有大型互聯網公司都建立了多條防線,但是有時,一名工程師犯下的一個編碼錯誤就會影響到成千上萬台計算機,造成重大故障,”前Facebook首席安全官、現斯坦福大學講師亞歷克斯·斯塔姆斯(Alex Stamos)表示,“換句話說,要讓Facebook這樣的複雜計算機網絡重啟,非常非常困難。”
Facebook發言人表示,週三的一個“ 服務器配置更改”在公司網絡上產生了級聯效應。一位現Facebook員工和一位前Facebook員工對此表示,這會導致故障不斷循環,牽扯面越來越廣,無法立即修復。
這個小錯誤釀成了大禍。Instagram用戶無法查看其他人的資料、WhatsApp用戶不能發送消息,Facebook主應用上的信息流變成一片空白。
宕機事故集中在Facebook主要市場
宕機追踪DownDetector表示,該公司收到了750萬份有關Facebook應用的問題報告。相比之下,當YouTube在去年10月份發生大範圍宕機時,DownDetector只收到了270萬份問題報告。DownDetector衡量服務是否中斷一定程度上取決於計算用戶提交的問題報告數量。
“我們從未見過如此大規模的宕機事故,”DownDetector聯合創始人湯姆·桑德斯(Tom Sanders)表示,
截至當地時間週四早晨,Facebook的大部分系統服務已經恢復,該公司依舊在試圖弄明白這個故障是如何在其網絡中“興風作浪”的。Facebook管理人員強調稱,這個故障並不是由入侵或者分佈式拒絕服務攻擊等網絡攻擊引發。
小錯誤釀成大禍
多年來,Facebook一直在招聘工程師,希望在幾週內就能發布觸及數十億人的計算機代碼。“看到我的工作對這麼多人的生活產生了有意義的影響,我很有成就感,”一位員工在Facebook“求職”(careers)招聘網站上推薦Facebook工作時稱。
但是,這也意味著一位員工的錯誤就能造成影響廣泛的後果,尤其是在Facebook近期制定詳細計劃合併“應用家族”基礎設施之際。一個計算機網絡交織地越緊密,小的技術故障鑄成大錯的可能性就越高。
和其他互聯網巨頭一樣,Facebook以“從不下線”為傲。這一目標推動Facebook成為了世界上最具影響力也是受到批評最多的公司之一。有20多億用戶預計每天至少在使用一項Facebook服務。
桑德斯稱,隨著人們越來越依賴通過Facebook服務與家人和好友聊天,開展工作,他們對於Facebook的服務穩定性寄予了更大希望。
“人們對於宕機事故的容忍度下降,越來越期待Facebook能夠每年365天完美無缺地運行,”他表示。企業受衝擊更大
儘管宕機事故激怒了許多用戶,但是它對依賴Facebook網絡創收的企業造成了更緊急的後果,例如廣告。
廣告公司GroupM社交業務全球主管凱伊莉·泰勒(Kieley Taylor)表示,她的公司無法訪問Facebook系統,這意味著新的廣告活動被推遲。“宕機從來不是好事,”她表示,“幸運的是,它持續的時間相較短,但卻是全面宕機。”
她的公司依舊在設法確定有多少廣告活動受到了宕機事故的衝擊。泰勒表示,由於Facebook廣告系統採用在現收現付制(Pay-As-You-Go),所以GroupM不必要求Facebook為尚未兌現的廣告活動退款。
GroupM把廣告轉移到了谷歌搜索、YouTube以及其他網站上,但表示鑑於Facebook的用戶規模,該社交網絡擁有獨一無二的受眾群。
“由於所有人都在這個平台上,Facebook仍舊是一個真正強大的數字營銷平台,”泰勒表示。(作者/簫雨)