資料中心停電後Cloudflare控制面板和API出現大面積長時間故障
Cloudflare 的長時間故障導致其許多服務癱瘓,包括最常用的客戶後台儀表板和用於管理和讀取服務配置的相關應用程式介面(API)都無法使用,而且不少網站一度無法管理自己的業務(包括cnBeta…)。功能全部或部分受到影響的服務的完整清單包括Cloudflare 儀表板、Cloudflare API、Logpush、WARP / Zero Trust 裝置態勢、Stream API、Workers API 和警報通知系統。
Cloudflare表示:”這個問題會影響依賴我們API基礎設施的所有服務,包括Zero Trust, WARP, Cloudflared, Waiting Room, Gateway, Stream, Magic WAN, API Shield, Pages, Workers。”
“使用Dashboard/Cloudflare API的客戶會受到影響,因為請求可能會失敗和/或顯示錯誤”。
客戶目前在嘗試登入其帳戶時遇到問題,並看到 ‘Code:10000″身份驗證錯誤,並且在嘗試存取Cloudflare 控制面板時出現內部伺服器錯誤。
Cloudflare 表示,服務問題不會影響透過Cloudflare CDN 或Cloudflare Edge 安全功能進行的快取檔案交付。
Cloudflare 儀表板故障截圖
儀錶板和API 問題背後是資料中心停電
在主要業務停駛兩個小時後,該公司透露,持續的問題是由於多個資料中心停電造成的。
“Cloudflare 正在評估斷電對資料中心的影響,同時服務也出現故障。我們將定期提供更新,直到問題解決,在我們努力緩解問題的過程中,感謝您的耐心等待。”
這是Cloudflare 自本週以來遭遇的第二次大面積故障,第一次是在10 月30 日星期一,包括Cloudflare 網站和服務(Access, CDN Cache Purge, Dashboard, Images, Pages, Turnstile, Waiting Room , WARP, Workers KV)在內的多個產品癱瘓。
正如該公司在兩天後發布的事後報告中解釋的那樣,週一的故障是由於用於部署新的Workers KV 版本的工具配置錯誤造成的。
Cloudflare 的Matt Silverlock 和Kris Evans 說:「客戶和Cloudflare 團隊都使用Workers KV 來管理配置資料、路由查詢、靜態資產捆綁、身份驗證令牌和其他需要低延遲存取的資料。在此次事件中,由於KV 使用的新部署工具中的一個錯誤,KV 傳回了它認為有效的HTTP 401(未授權)狀態碼,而不是請求的鍵值對。”
美國東部時間11 月02 日20:12 更新:Cloudflare 發言人透露,這次持續中斷的根本原因是發電機故障導致的區域性電力問題,導致設施脫機。
「我們在俄勒岡州的多個冗餘資料中心運行,為Cloudflare 的控制平面(儀錶板、日誌等)提供電力。一次區域性電力問題影響了該地區的多個設施。這些設施一夜之間無法發電。今天上午,多台發電機發生故障,導致這些設施完全斷電,」發言人說。
“我們已將故障轉移到災難復原設施,大部分服務已經恢復。這次資料中心故障影響了Cloudflare 的儀錶板和API,但並沒有影響透過我們全球網路的流量。我們正在與我們的資料中心供應商合作,調查區域性停電和發電機故障的根本原因。我們預計將根據了解到的情況發布多篇博客,並在博客上線後與您分享。