微軟藍屏事故背後:一個小檔案是如何讓全球電腦癱瘓的?
週五,當英國國民保健署(NHS)的醫生、倫敦帝國學院教授布倫丹·德萊尼(Brendan Delaney)出現在他的倫敦診所時,他原以為這一天會忙得不可開交。兩個月前,倫敦東南部的醫院和診所遭受了毀滅性的網路攻擊。現在,像德萊尼這樣的醫生終於開始覺得工作恢復正常了。他們可以再次發送緊急血液檢測。網路安全專家在修復和更換之前被駭客犯罪團夥關閉的資訊技術系統方面,並取得了進展。
然而,就在他到達診所時,他看到前台正在匆忙地收集紙本記事本,查詢業務連續性計劃。原來,英格蘭醫生用來查看病人病歷的一個系統突然失靈了。
這次,問題不是源自勒索軟體集團,而是出在一家為了保護人們免受駭客攻擊的公司,它是全球最大網路安全軟體製造商之一的CrowdStrike Holdings CrowdStrike推送了一個有缺陷的更新,引發了全球IT系統崩潰,導致全球機場、銀行、證券交易所和企業陷入癱瘓。
小文件大破壞
令人難以置信的是,一個很小的文件(專家稱只夠容納一個網頁圖像)居然導致了世界上最大的IT中斷事故。這個名為「C-00000291*.sys」的檔案隱藏在CrowdStrike的Falcon sensor安全產品更新中。該問題檔案在微軟公司的Windows作業系統中引發了一個錯誤,導致電腦無法正常運作,並觸發了可怕的「藍屏死機」。
這次事件以前所未有的規模暴露了全球IT系統的脆弱性,並凸顯出如此多的組織和個人依賴少數幾家科技公司所存在的危險性。如果其中一家公司出現故障或遭到駭客攻擊,其後果可能波及全球經濟的大片領域。微軟憑藉其Windows作業系統主導了個人電腦業務,而CrowdStrike已成為數千家公司和組織的首選供應商,後者希望保護其最重要係統免受網路攻擊。
罪魁禍首CrowdStrike
知名研究公司IDC的數據顯示,CrowdStrike是僅次於微軟的第二大「現代終端保護」軟體開發商,在規模為126億美元的市場中佔有18%的份額。這家總部位於美國得州奧斯汀的公司向全球2.9萬家機構銷售其產品,所以這次當機可能會影響數百萬台電腦。這些電腦可能需要數週或更長時間才能重新恢復正常,因為它們必須手動修復。
「這真是一團糟,」前NHS醫生、網路安全和公共衛生專家賽義夫·阿比德(Saif Abed)表示,「Crowdstrike影響到了微軟,而整個NHS都依賴微軟,製造了一個潛在故障連續爆發的骨牌效應。
如何發生的?
上週五,隨著宕機事故從亞洲和澳洲蔓延到歐洲和美國,CrowdStrike聯合創始人兼CEO喬治·庫爾茨(George Kurtz)為這一錯誤道歉。“這不是安全事件或網路攻擊,”他說,“這個問題已經被發現、隔離,並且已經部署了修復程序。”
庫爾茨沒有具體說明這個漏洞是如何出現在軟體更新中的。但是,一些長期批評網路安全產業的人士已經有了一套可以說得通的理論。他們說,CrowdStrike和其他網路安全公司在追求更大利潤和試圖安撫股東的同時,犧牲了基本、枯燥的安全原則。
「現在是產業成長,放慢腳步的時候了,」總部位於愛丁堡的安全服務公司Quorum Cyber的創始人兼CEO費德里科·查羅斯基(Federico Charosky)表示,「有些開發商在某個地方做出了改變,卻沒有分析這種改變會產生什麼影響。的。
重蹈覆轍
週五發生的一切非常罕見,但CrowdStrike CEO庫爾茨卻不陌生。 2010年,他也是防毒軟體先驅McAfee的技術長。那年4月,McAfee發布了一個更新,錯誤地將一個合法的Windows文件標記為感染文件,癱瘓了世界各地醫院、學校和政府機構的電腦。
CrowdStrike CEO庫爾茨
McAfee時任CEO戴夫·德沃爾特(Dave DeWalt)稱,該公司在16分鐘後就撤銷了這個有缺陷的更新,但那時,它已經安裝在1600多家客戶的電腦上。德沃爾特現在經營著一家專注於網路安全的創投公司。他在接受採訪時說:「我們在那天損失了大約40%的市值。」德沃爾特還說,公司派出了近4,000名員工乘飛機幫助受影響的客戶從事故中恢復過來。
McAfee最終走出了危機,但當時的員工稱這起事故是一種極大的創傷和恥辱。四個月後,英特爾宣布收購McAfee。
網路產業觀察家想知道,CrowdStrike是否會從自己的錯誤中學習。有人已經表示,該公司是在自找麻煩。多年來,CrowdStrike一直在抨擊微軟允許駭客入侵其係統,庫爾茨利用這些漏洞作為自己產品的賣點。
就在美國政府發布報告,指責微軟存在“一連串的安全故障”後不久,庫爾茨突然出擊,在財報電話會議上向投資者引用了他的調查結果,表示微軟的問題引發了潛在客戶的“大量要求」。 「微軟安全客戶群中的安全和IT團隊中存在著廣泛的信任危機。」他當時表示。
「CrowdStrike試圖盡可能抨擊微軟,並從中獲利,」查羅斯基表示,「但是當你的公司在全球基礎設施中佔據如此重要的地位時,沒有人能逃脫幹系。這就是因果報應。當當一家公司從新創公司成長為重要的國家基礎設施企業時,它需要採取不同的行動,我不知道CrowdStrike是否經歷了這種轉變。
“年度惡意軟體”
鑑於CrowdStrike造成的破壞程度,一些網路評論人士已經將這個有缺陷的更新描述為「年度惡意軟體」。這種將其與駭客攻擊進行的玩笑式比較在某種程度上是有現實依據的。網路安全專家說,受影響組織的恢復可能需要數週或更長時間,大致相當於大型組織在遭受勒索軟體攻擊後重建網路所需的時間。
讓這些電腦恢復正常的最大挑戰是,CrowdStrike的修復程式需要由具有管理權限的人手動修復,一台電腦接一台電腦,這是一個非常耗時的過程,在遠端工作的時代尤其困難。
星巴克電腦藍屏
得克薩斯州普萊諾網路安全服務公司Accelerynt的聯合創始人兼董事長邁克爾·亨利(Michael Henry)稱,美國一家大型零售商的客戶不得不召集其所有IT員工,讓他們晝夜不停地手動更新約6000台受影響的電腦。他說,該公司預計將花費整個週末時間來恢復關鍵系統,所有系統完全恢復上線狀態需要三週時間。
“這太瘋狂了。他們正在分類,首先關注關鍵系統,”亨利說,“這是一項零售業務,所以他們要確保門店能夠恢復運營。”
亨利有一個疑問,這也是很多人在宕機事故發生後都在問的問題:這是怎麼發生的?
「CrowdStrike對全球商業造成的破壞,比所有勒索軟體攻擊的總和還要大,」他說,「這證明了,我們在保護自己而部署的軟體上承擔了多大的風險:如果這些人出錯,他們可能會毀掉你的業務。
訴訟
庫爾茨在周五晚些時候發表的聲明中說:「隨著這一事件的解決,我承諾將對事件發生的過程以及我們為防止此類事件再次發生所採取的措施提供充分的透明度。
網路安全和法律專家表示,CrowdStrike幾乎肯定會被起訴、付出經濟成本和其他處罰。這事件也肯定會引發一場新的討論,即權力和風險日益集中在少數幾家網路安全公司手中存在的問題。
按照矽谷的標準,網路安全產業相對年輕,它是在蠕蟲和軟碟病毒的時代成長起來的。 20年前,它由賽門鐵克和McAfee兩家公司主導,這兩家公司的防毒產品採用了一種現在看來有些古怪的策略,即編寫「簽名」以阻止已知的惡意軟體菌株。
微軟
如今,攻擊者變得更加先進,傳統的防毒軟體已經失寵,導致那些傳統安全廠商退出舞台。取而代之的產品能夠偵測PC上一系列威脅並自動修復這些威脅。
問題在於,這些技術在很大程度上由微軟和CrowdStrike控制。紐約大學電腦科學教授賈斯汀·卡波斯(Justin Cappos)表示,他一直在警告,安全產業的整合以及隨之而來的集中決策可能會導致大問題,這種爭論在其他科技領域也曾發生過。
“大公司在科技領域會犯大錯誤,”他在接受采訪時說,“我們看到過的很多非常糟糕的安全設計都出自大公司之手。”