Elasticsearch服務器洩露12億個人數據公開掛在暗網上
身為驢(旅)友,花大把時間探索大千世界著實不錯,如果運氣好,找找寶藏,沒準真能遇到堆滿了金銀財寶的“小金屋”。不過,這都算不上離奇。最刺激的,寶藏被神秘人士仍在大街上,任你去取。連找的力氣都省了,那還不得樂昏過去?或許你會問,世上哪有這等好事?別說,還真有!
近日,研究人員鮑勃·迪亞琴科( Bob Diachenko )和文尼·特羅亞( Vinny Troia )就發現了“寶箱”。原來,這是一個Elasticsearch 服務器,其中包含12億用戶賬戶,該服務器被公開在暗網上,任何人都可以“到此一遊”。
數據來自何方?
研究人員分析,當人們通過BinaryEdge 和Shodan 尋找公開信息時,偶然發現服務器的IP地址可以追溯到Google Cloud Services 。總體而言,該數據庫存儲著超過4 TB 的公開數據供公眾訪問。
作為全文檢索搜索引擎的核心技術, Elasticsearch 作為基於Lucene 庫的搜索引擎而存在,其被應用於企業信息網站、媒體網站、政府站點、商業網站、數字圖書館和搜索引擎中。
查看研究人員分享的詳細信息後發現,該數據是從社交媒體平台(包括Twitter , Facebook , LinkedIn 和GitHub )中抓取,而該平台同樣為Git (一個開源的分佈式版本控制系統)的存儲庫執行託管服務。
這些數據在服務器中被分類成四個不同的數據集,其中三個被標記為“ People Data Labs ”的數據代理,而另一個則被標記為“ OxyData ”的數據代理。
Troia 稱,他在People Data Labs ( PDL )中發現了自己10 年前在AT&T 公司辦理的一個固話號碼。這個號碼他從未使用過,但是當時錄入的信息卻被保留在了這裡。
經研究發現,在該服務器中包含了近30 億 PDL 用戶記錄,近12 億唯一人員和6.5 億唯一電子郵件地址。這些數據數量不光與PDL 公司的宣傳相符,甚至研究人員還可以通過PDL API 返回的信息來反向查詢這些數據。
另外,研究人員通過將數據庫和上述兩家公司的公開數據進行比對,發現至少在一定程度上源自它們。研究人員在博客文章中專門針對PDL 的措辭進行了詳細說明:
在打開的Elasticsearch服務器上發現的數據幾乎與People Data Labs API返回的數據完全匹配。唯一的區別是PDL返回的數據還包含教育歷史記錄。
從服務器下載的任何數據中都沒有教育信息。其他所有內容都完全相同,包括具有多個電子郵件地址和多個電話號碼的帳戶。
但是, PDL 聯合創始人Sean Thorne 否認公司擁有該服務器的說法,並稱,該服務器的所有者可能使用了PDL 提供的一種擴充產品,以及其他數據擴充或許可性服務。
另一方面,4 TB 用戶數據(包括3.8 億個配置文件)被證實來自OxyData公司,但是該公司同樣回應稱並沒有服務器的所有權。
截止目前,研究人員並不能確定是誰將服務器公開在互聯網上,但信息洩露意味著將會影響到兩家公司的共同客戶,並使其面臨數據濫用的風險。
不是頭一次了
除了這次事件, Elasticsearch 服務器曾多次被向公眾公開,這同樣將毫無戒心的用戶和企業的個人數據置於風險之中:
今年早些時候,Elasticsearch服務器上公開了超過2000萬俄羅斯公民的個人信息。
今年5月,在Freedom Mobile 擁有的Elasticsearch 數據庫在線洩漏後,具有數百萬加拿大人 CVV 碼的個人和支付卡數據再次暴露。
去年12 月,另一個包含8200 萬美國人個人信息的數據庫在網上暴露了出來。
Elasticsearch 服務器有關的數據洩漏事件屢屢出現,也吸引了大量攻擊者的目光,因為這可能成為其攻擊行動的切入點。
Cequence Security 公司的一名黑客Jason Kent 評論稱,“我們看到一種不同於以往的全新且具有潛在危險的數據關聯。如果攻擊者持有豐富的數據集,那麼就能夠製作針對性極高的攻擊。這種攻擊可導緻密碼恢復信息、財務數據、通信模式、社會結構等被暴露,這是高級別在位人員可遭針對性攻擊的方式。
聯邦調查局尚未回應
兩名研究員將這一發現上報了聯邦調查局,儘管通常情況下幾個小時內Elasticsearch 服務器即可完成數據脫機操作。但是,後者在收到消息後並未給出明確回复。
ARM Insight 首席執行官Randy Koch 分析,此次大規模數據洩露事件對那些被看成持有數據所有權的企業來說造成巨大破壞,同時也會造成數十億人的信息外洩到世界各地。
所包含的個人數據如此龐大,加上識別數據所有者很複雜,因此有可能會引發我們現行隱私和數據洩露通知法律有效性的問題。
如果具有數據掌控權的公司將其用戶信息收集並進行集中合成,則可以有效預防此事件,因為數據合成的過程在模仿真實數據的同時消除了用戶的可識別特徵。
正確合成後,它就不能被黑客進行逆向工程,並同時保留了原始數據集的所有統計價值,因此它仍然可以用於分析、市場營銷、客戶細分和AI算法訓練等等。
但是,集中數據會抵消作為數據掌控企業的名譽,且在隱私、合規性上也頗具風險。