大數據黑市交易觸目驚心:平均每人至少有4條個人信息洩露
你是不是有過這樣的疑惑:剛跟朋友聊完理財、美妝、買房、貸款等日常話題,怎麼就收到包括抖音、騰訊新聞甚至一些視頻網站推送的與聊天內容相關的廣告?對於個人隱私,人們從未如當下這般焦慮。今年的“3·15晚會”曝光了智聯招聘、前程無憂、獵聘網等由於缺乏管理,大量個人簡歷洩露,被倒賣形成黑色產業。
此外,內存優化大師、超強清理大師、手機管家Pro打著清理內存的名義,卻通過技術手段不斷獲取手機中的信息,包括應用列表、定位信息、通訊錄等。
近期,證券時報記者深入多個數據交易千人QQ群發現,各行各業的用戶隱私數據被肆意販賣,觸目驚心。不時有人在群裡喊單,“出一手GM(股民)、WD(網貸)、BJ(保健)信息,拼多多、淘寶、京東一手網購數據,需要數據的聯繫我……”這些數據按照行業劃分被明碼標價。甚至還有採集個人信息的系統展示,號稱可以採集全國老闆的私人聯繫方式。還有五花八門爬取數據的軟件,“爬”上網站,“嵌”入App,“鏟”下數據。
整個數據交易過程中,內鬼、黑客、爬蟲軟件開發商、清洗者、加工者、料商、買家等寄生於此,催生出一個“年產值”上千億的數據黑市。
App權限申請氾濫
2020年網飛出品的紀錄片《監視資本主義:智能陷阱》中,形像地向人們展示了這樣一幅場景:社交軟件後台“三名工作人員”正在緊張地分析眼前這個年輕人,他在每張圖片下停留多長時間,什麼樣的情感更能讓人產生共鳴,什麼樣的廣告會吸引他點開。這三個人一個叫停留目標,根據停留的時間幫你選擇下一個推送內容,讓你一直滑動屏幕;一個叫增長目標,讓你盡可能多地邀請你的朋友加入增加社交依賴;一個叫廣告目標,確保你在對某物感興趣時精準為你送上一條下單鏈接。
這一切行為的背後就是所謂的算法模型,精準算法的背後正是依託海量數據作為支撐,將人數據化。
那麼,這些數據從何而來?
獲取權限,是大小商家通過App或者小程序收集用戶隱私數據的第一步。當你在安裝一款App時,上萬字的用戶協議,呈現在你巴掌大的手機屏幕上,你會逐字看還是快速按下“同意”?“不同意”很可能導致App退出無法使用。
App越界索權的現像已是不爭的事實。以美圖秀秀為例,實難想像,一款P圖軟件要獲取一個人這麼多信息,包括搜索記錄、瀏覽記錄,甚至是日曆、地理位置。仔細閱讀美圖秀秀個人信息保護政策發現,若將美圖秀秀內容分享至第三方平台時,還會讀取用戶的應用列表信息。美圖秀秀還會向遊戲合作夥伴提供身份證號信息,甚至還會向合作夥伴共享用戶的付款信息。
條款中還聲明,基於現代移動互聯網產品互聯互通的特性,產品可能接入美圖關聯公司或外部合作夥伴上線的其他產品或功能,比如在使用錢包功能時,美圖可能從第三方獲取用戶的手機號、授信額度、還款金額、放款成功狀態、逾期狀態等。
這意味著,只要用戶使用美圖軟件並授權,美圖秀秀不僅可從自家App上獲取用戶信息,還會從第三方平台上進一步獲取用戶更為詳細具體的信息。
“這種行為其實十分普遍,國內用戶可能對個人信息的保護意識並沒有很強烈,這給了企業很大的選擇度,行業稱之為’佔坑’。有些數據現在不需要,但並不代表以後不需要,在獲取用戶授權後抓取到的用戶信息當然越多越好。”某金融科技公司大數據風控架構師肖強稱。
證券時報記者從衣、食、住、行、社交、娛樂、理財等方面對25款App相關權限獲取進行統計,發現和用戶社交圈緊密相關的通訊錄權限已經成為App權限標配。除此之外,這些App還會通過一些特定功能讀取通訊地址、手機存儲、照片、甚至記錄面部識別、日曆還有通話記錄,手機App權限申請已經到了氾濫成災的地步。
稍微值得欣慰的是,App過度申請權限收集數據正在被加強監管。
3月22日,國家網信辦、工信部、公安部、國家市場監督管理總局聯合印發《常見類型移動互聯網應用程序必要個人信息範圍規定》,明確了地圖導航、即時通信、網絡購物等39類常見必要個人信息範圍,要求運營商不得因用戶不同意提供非必要個人信息,而拒絕用戶使用App基本功能服務。
不過,肖強向記者表示,“可能大家都知道App在收集個人隱私數據,但除此之外,用戶的數據還可能同時被隱藏在App裡的第三方SDK(軟件開發工具包)收集。”
SDK收集的用戶信息可以詳細到什麼程度?北京網貸協會數據安全專家韓洪慧表示,“SDK一旦嵌入,如果你註冊登錄了這個App,並默認授權,所有的行為數據都能記錄,它會在不知不覺中爬取手機通訊錄、聊天記錄、銀行賬號的密碼口令、短信、通訊錄、位置信息等。”
因此,用戶授權App採集個人信息,但往往並不知道自己的個人信息在何時、以何種方式被共享給了第三方SDK。很多App“隱私政策”的內容關於共享的相關表述中,最常見的是“可能會將用戶的個人信息分享給第三方”。但是,幾乎沒有App會在隱私政策中詳細列舉所謂的“第三方”究竟包括哪些。
對於個人信息安全的憂慮,折射出的是用戶日益敏感的神經,更是用戶缺乏對個人數據的知情權和主動權的表現。SDK對於用戶來說,猶如一顆隱藏的“定時炸彈”,危險性不言而喻。
SDK提供商洩露和濫用用戶信息非常隱蔽,甚至成為了洩露用戶隱私的源頭之一。
誰竊取了用戶隱私?
數騰科技一位銷售經理向記者表示,他們有自己特殊渠道去拿取一些數據,其中最為主要的渠道就是通過第三方SDK獲取數據。
“這個渠道拿到的數據會更精確,類似漏斗模式,會把數據按照需求進行篩選。比如說網貸行業的用戶數據,用戶登錄XX普惠,使用此款App就要授權,一旦授權SDK就會收集這個用戶的所有登錄痕跡。其他消費金融公司如果也使用了這家SDK軟件開發包,同樣也能共享。”
記者進一步追問具體是跟哪家SDK友商合作時,該經理以“敏感信息”為由拒絕透露。
無法忽視的是,用戶個人信息通過網絡倒賣非常猖獗。近期記者潛入多個千人QQ群,發現群裡不時有人喊單出售來自各行各業的公民個人信息。
記者以買家身份接觸了一位QQ名為“空城”的賣家,並提出先測試數據真實性為由,要求對方提供股民個人信息數據。
為證明自己的數據來源,“空城”給記者提供了一張數據來源截圖,收集的股民個人信息來自各大證券公司App,廣發證券、中投證券、國泰君安等都中招。
正如“空城”所說,QQ群裡的確有部分人在賣數據的時候打著“公司內部信息”旗號公開倒賣數據。“內鬼”監守自盜是個人信息流入黑產的重要渠道之一。可以接觸到大量個人信息的職業,並非高門檻,崗位職級也不需要太高,洩露源可能來自各層級。
2020年,公安機關打擊利用工作之便竊取、洩露公民個人信息的違法犯罪行為,各行業內部都有涉案人員,查獲重點行業內部涉案人員500餘名,而這不過是冰山一角。
除了“內鬼”洩密,還有通過各種技術手段竊取公民隱私。
在調查採訪過程中,黑市數據交易市場非常活躍且採集數據軟件五花八門,其中一款名為匯容客的App,號稱“全網最全大數據獲客軟件”。其銷售經理向記者稱,“我們這款軟件是全自動採集,只要搜索關鍵詞,就能在各大網站、三大地圖、三大運營商搜索出你想要的客戶資源和群體,不僅是獲客功能,我們還能提供營銷素材,帶貨視頻等,每檔功能都會對應不同價格。”
當記者問及跟哪三大地圖合作時,該銷售經理稱主要是騰訊地圖、高德地圖以及百度地圖,並且是經過授權使用他們的數據接口,並向記者發來跟三大地圖運營商蓋章的合同協議。
就此記者向百度、騰訊以及高德公司求證是否授權匯容客使用平台用戶數據,對方均一致表示不清楚這家公司,也不會將API(數據接口)隨意授權。騰訊內部相關人士向記者稱,這個章是假的,字體不一樣。
為力證此款軟件的數據爬取能力,上述銷售經理稱可以幫忙後台註冊後先測試。隨後記者下載了此款App,發現這款軟件可以按照地理位置、行業、客戶類型等進行搜索,然後導出相應的用戶數據,並且一鍵添加微信。
“因為只是體驗所以你不會看到客戶手機號,這也是我們公司為了維護其他會員權益。我們會跟一些第三方SDK合作,也會跟一些大的互聯網公司進行API數據接口對接,我們跟騰訊、百度、華為、阿里、抖音、快手、美團、餓了麼都有戰略級合作關係,資源高度整合。”該銷售經理稱。
記者發現匯容客軟件上顯示數據來源主要為地圖數據、工商數據、抖音、快手、阿里巴巴、美團、餓了麼、京東互聯網巨頭。
針對軟件所提及的數據來源,證券時報記者向騰訊、阿里、美團、京東等都一一核實,多數均表示並沒有將API數據接口跟名為匯容客的第三方共享,僅快手錶示不回應。阿里公關進一步稱,集團不可能允許該公司通過API接口爬取調用螞蟻用戶信息,目前已經在深入調查此事。
“能從這些網站爬取到用戶數據肯定是用了相關一些技術,其實爬蟲技術並不神秘,’爬’上網頁,’鏟’下數據,然後再進行加工清洗。這類軟件眾多,大部分是在全網進行無差別爬取客戶資料,後面通過加工進行精準分類。由此還延伸出職業清洗數據和標註的人。”專門編寫爬蟲代碼的阿強向記者透露。
除內鬼和通過技術手段之外,黑客是盜取大量個人信息的另一重要源頭。從此前京東用戶密碼洩露事件到如家酒店的用戶數據洩露,網站和黑客在用戶數據上一直在進行著曠日持久的攻防戰。
而黑客通過技術入侵網站盜取公民個人信息並不難,少則幾天多則一個月,而且很少被管理員發現。在黑客圈子裡,大家都有個默契,入侵網站獲取權限和信息後,都會互相交換數據,互通有無,讓盜取的公民個人信息庫越來越大,掌握的個人信息也越全。
2020年全國公安機關在“淨網2020”專項行動中,偵辦黑客攻擊及新技術犯罪案件1782起,共有2952名涉案黑客被抓獲。事實上更多的黑客依然潛伏於地下。
個人信息通過內鬼、網絡技術、黑客等渠道流入了數據黑市,並進入了大大小小的各層級代理“料商”手中。
個人信息明碼標價
料商,即數據中間商,他們上通數據源頭下達數據買家,是地下數據交易市場非常重要的一個角色。個人數據就是通過料商以不同價格在黑市流轉。料商甚至還會發展自己的代理商,層級越高的料商數據源越多,數據信息更全。
前文提到的銷售經理就是行業料商之一,他向記者表示,僅包含個人普通信息比如電話號碼、微信、QQ號等,平均拿貨成本價每條信息在4毛左右,賣出去的單條價格在7~8毛左右,每條個人信息約賺3~4毛左右。“我每個月銷售數據流水大概在40萬~50萬元,金融、教育、醫美等行業都做,這塊需求量會比較大。”
記者在與多位料商接觸採訪過程中了解到,上述銷售經理並非一級料商,一級料商的進貨成本在0.15元/條左右,類似祝經理的二級料商進貨成本為0.4元/條左右,三級料商進貨成本0.7~0.8元/條,對終端售賣均價在1.2~1.5元/條。
上述不過是數據黑市交易中普通隱私數據價格。在數據黑市中,還有料商專門從事“滲透數據”交易,所謂的“滲透數據”就是所有信息都能夠被抓取,除了電話號碼、微信等基本信息以外,還包含用戶的身份證號、出行記錄、開房記錄、通話記錄、家庭成員、工作、婚姻狀態、戶籍所在地等。
有料商甚至在QQ群裡直接將“滲透數據”明碼標價,查詢個人簡易信息15元/條,包含姓名、性別、手機號;中級信息50元/條,除了簡易信息外,還包含戶籍地址、身份證號、照片;高級信息100元/條,在中級信息基礎上還包含現住地址、開房記錄、車輛信息;VIP客戶600元/條。
“正常行情價僅通話記錄,叫價在1500元左右,開房記錄價格在2200~2500元左右,家庭成員信息在300元左右。”網名“風”的料商稱。
據不完全統計,國內個人信息洩露數達55.3億條左右。平均算下來,每個人就有4條相關的個人信息洩露,車輛、房產、地址、職業、年齡、電話號碼、身份證信息等在黑市上頻繁流動。
國內知名信息安全團隊“雨襲團”去年10月發布報告稱,在一年半的時間內,高達8.6億條個人信息數據被明碼標價售賣,個人數據基本處於裸奔狀態。
灰色產業鏈龐大
“本人求購炒股理財信息,數量上不封頂,有料的找我!”一位買家在QQ群內發布了這樣一則消息,很快就有多位料商通過私聊向其推薦手上的數據資源。
在經過溝通和比價之後,上述買家告訴記者,他已經從一位料商手中拿到了1萬條理財的個人信息,包含了姓名、電話號碼和微信,價格為1元/條。記者進一步追問拿到這些數據主要用途,該買家表示,僅僅是為了推銷理財產品。
綜合多方採訪,購買個人信息最多的是那些需要推銷廣告、出售假冒發票和發布垃圾信息,以及從事網貸催收的人。其中房地產、理財公司、保險公司、母嬰以及保健品行業、教育培訓機構是對個人信息趨之若鶩的核心群體。
被盜取的個人信息也不乏用於詐騙。比如保健品用戶信息主要針對老年人,專門用來詐騙。
記者在與買家接觸中發現,他們大部分人都知道買賣數據交易屬於黑產,但依然作此舉動,一個重要原因在於通過正規渠道打廣告,比如百度競價排名,獲客成本在60~80元/左右,而通過地下黑市買用戶數據,成本能大幅縮減。
從信息收集到信息售賣再到信息利用,每一個交易環節環環相扣,而由此產生的“灰色產業鏈”讓人難以估量。據獵聘網報告,目前中國網絡黑產從業者已經超過40萬人,依託其進行網絡詐騙行業人數至少有160萬人,“年產值”在1000億元以上。
數據合規交易痛點
海量的個人信息地下市場規模多大,目前沒有準確數字統計。但從公安機關的專項打擊行動中,可窺一斑。
2020年全國公安機關深入推進“淨網2020”專項行動,全年共偵辦網絡犯罪案件5.6萬起,抓獲犯罪嫌疑人8萬餘名。其中,偵辦侵犯公民個人信息類案件6524起,抓獲犯罪嫌疑人1.3萬名。
但很顯然,這並非黑市全貌。貴陽大數據交易所業務經理陳經理向記者表示,“目前通過正規渠道進行數據交易的不多,更多的數據可能還是在黑市交易。”
貴陽大數據交易所是國內首家大數據交易所,2015年4月正式掛牌運營,喊出了未來3~5年每天交易量達到100多億元的口號。如今,交易所成立已經6年,陳經理向記者透露,目前交易所日成交量遠遠沒有達到當時定下的目標。
大數據服務商聚立信CEO羅皓以及陳經理都同時提到,數據交易過程中產生的數據確權、數據回溯,交易過程中的安全性、合法性、隱私性保障等問題,迄今為止還沒有得到很好的解決。尤其是數據確權,例如數據的採集、加工、採用、交易等環節可能有多個參與方,什麼情況下什麼類型的參與方可以獲得數據的權利,在實踐中尚未達成一致共識。
目前可見的紅線是來源是否合法,以及交易數據是否脫敏(涉及敏感信息進行去個人化,隱私化處理)。但問題在於,在數據的流轉過程中,其中摻雜非法來源以及未脫敏數據實際上很難被發現。
另外,數據的開放程度還遠遠不夠,導致市面上合法流通的數據品類和數量有限,玩家們難以施展拳腳。
像騰訊、阿里這樣的互聯網巨頭,在擁有海量數據的同時本身還能實現大數據云計算閉環,它們更希望是打包成數據產品和服務賣出,比單純買賣數據更值錢,也更能避免法律風險。這些玩家共享數據的意願不強,這從騰訊、阿里與貴陽大數據交易所自合同到期再無續約就可窺見。
但從技術角度來講,目前已經有一種技術可以實現B2B之間的數據合規化交易。大數據服務商星雲Clustar CTO張駿雪向記者表示,目前公司已經採用了一套“聯邦學習”算法。簡單理解,就是基於雙方現有的數據去共同建立一個坐標體系,這個坐標體係就是所謂的建模,建模完成後,就能較為精準地判斷客戶處於坐標體係安全的點還是危險的點。但是在建模過程中,雙方並不知道彼此的用戶資料,不用擔心用戶隱私被複製洩露。
根據張駿雪介紹,上述聯邦學習算法目前只是解決了B2B之間的數據合規化交易,且主要還是用於銀行金融機構之間的數據交易,且成本較高,並沒有被大規模應用。
大成律師事務所律師肖颯告訴記者,個人信息的合規使用目前在中國較大程度依賴於公司的自我約束,各大運營商對於用戶隱私是否盡到了保護責任,如何在公眾隱私保護和商業模式中尋找一個平衡點,在保護個人權益的前提下規範、安全、有序地利用個人數據,釋放大數據的紅利值得深究。