Facebook解釋週一全球停擺背後的骨幹網路關閉事件
導致Facebook、其相關服務(Instagram、WhatsApp、Oculus、Messenger)、其企業平臺和公司內部網路癱瘓的大規模故障,都是從一次例行維護開始的。 據基礎設施副總裁桑托什·賈納丹(Santosh Janardhan)說,在維護過程中發出的一條命令無意中導致了連接世界上所有Facebook數據中心的骨幹網的關閉。
這本身就夠糟糕的了,但正如我們已經解釋過的,你無法使用Facebook的原因是,指向其伺服器的DNS和BGP路由資訊突然消失了。 但據Janardhan說,這個問題原本反倒是次要的,因為Facebook的DNS伺服器注意到與骨幹網的連接丟失,並停止分發BGP路由資訊,以幫助互聯網上的每台計算機找到其伺服器,這就導致DNS伺服器本身仍在工作,但它們無法到達。
然後連鎖反應惡化了問題的表現:網路連接的缺乏和DNS的丟失切斷了伺服器與試圖修復問題的工程師的聯繫,並禁用了他們通常用於修復和通信的許多工具–就像我們昨天聽到的那樣:
什麼是BGP,它在Facebook的大規模故障中發揮了什麼作用?
由於圍繞這一關鍵硬體的物理和系統安全問題,工程師們遇到了額外的障礙。 一旦他們”啟動安全訪問協定”(這顯然不是”用角磨機切開伺服器門”的暗語),他們就能夠讓主幹網上線,並在逐漸增加的負載中慢慢恢復服務。 這也是昨天一些人花了較長時間才恢復訪問的部分原因,因為一次性打開所有資源所帶來報復性訪問需求可能會導致計算機更多的崩潰。
所以,沒有駭客入侵,只是一個審計工具遺漏了一個命令中的錯誤,而在六個小時內,連接數十億人的服務就這樣莫名其妙地消失了這麼久。