新論文稱從匿名數據集中識別指定人員並不困難
醫療保健信息、稅務記錄、信用評級和上網瀏覽歷史,按理說存儲在數據集中這些關於你的個人數據都應該是匿名的。不過本週二發表在Nature Communications上的一篇論文顯示,在這些數據集中識別出某個人的信息數據要比你想像中的更加容易輕鬆。
由倫敦帝國理工學院和魯汶大學的研究人員組成的團隊僅僅利用15個人口統計學特徵和一些機器學習,就能讓99.98%的美國人在任何數據集中被正確的重新識別。研究人員表示,他們的工作表明重新識別是一個真正的風險,並質疑當前的實踐是否符合現代數據保護法,如歐洲的通用數據保護法規和加州消費者隱私法案。
研究人員培訓機器學習的數據來自於美國美國人口普查局在內的五個來源,共計210個不同的數據集,覆蓋1100萬美國人口。那麼如何快速從匿名數據中識別發現?倫敦帝國理工學院的計算隱私小組還創建了一個工具,用於檢查您在匿名數據集中正確重新識別的可能性。