Cloudflare承認11月14日的軟體更新導致55%的客戶日誌永久遺失
2024 年11 月14 日Cloudflare 日誌服務故障導致無法輸出日誌,儘管Cloudflare 工程師已經盡力修復,但日誌服務仍然中斷3.5 小時並且丟失大約55% 的日誌,這些日誌因為是永久性丟失因此無法恢復。
日誌服務通常對網路服務至關重要,因為可以透過日誌分析存取資料、排查故障和找到潛在的惡意攻擊等情況,因此日誌服務故障也屬於嚴重問題。
在最新發布的事故調查報告中Cloudflare 承認這次故障的主要原因是部署的軟體更新存在錯誤,這導致Cloudflare Logs 沒有正確向客戶發送日誌訊息。
由於日誌通常都是極多的資料所以Cloudflare 使用名為Logpush 的工具將日誌分割成可預測大小的包,這些包再透過合理的節奏推送給客戶進行分析。
11 月14 日Cloudflare 工程師對Logpush 進行更改支援更多額外的資料集,但這次更改有一個致命缺陷:忘記告訴Logfwdr 等工具需要給推送給客戶,因此日誌確實是被收集了但沒有推送給客戶保存,隨後這些日誌快取被清理後就是永久消失。
這次軟體更新僅在部署5 分鐘後Cloudflare 工程師就發現了問題並執行回滾,然而這觸發了另一個Logfwdr 錯誤:在Logpush 混亂的情況下,所有客戶的所有日誌事件全部都會推送到系統中,而不僅僅是那些已經配置了Logpush 定時作業的客戶。
由此產生極其龐大的日誌導致Cloudflare Logs 服務出現異常,由此導致大量日誌文件徹底丟失,這些丟失日誌文件既沒有推送給客戶存儲,也沒有被Cloudflare 系統存儲保存,所以就是徹底沒了。
Cloudflare 針對此事道歉並表示部署方案避免此類事件再次發生,不過現在工作尚未全部完成。