大數據是怎麼知道你去過新發地的?
“經過全市大數據分析,您可能在5月30日(含)以後去過新發地批發市場……”隨著新發地市場新冠源頭被鎖定,近日來,大數據篩查,成為不少北京市民在朋友圈中熱議的話題一組數據顯示,截止6月17日,在行動軌跡一致的情況下,利用大數據分析相關風險人群位置和路徑,北京用了短短幾天時間,就“找”出了30多萬人進行核酸檢測。
與年初武漢疫情爆發初期大數據分析人口流動相比,此次北京的“大數據篩查”,無疑體現了更高的技術含量,和更好的時效性,對疫情處置發揮了不可小覷的作用。
圖片顯示了5月29到6月12日到訪過新發地的人群,發現2430人到訪新發地市場並離開北京,其中有91人到訪上海。圖表還詳細列出了這2000多人到訪過的其他城市,包括廊坊、保定、天津等。(圖片來自網絡)
精準查找
三種手段鎖定新發地接觸者
從6月15日以來,不少路過或者去過新發地的北京市民,都接到了短息或者是社區電話,表示通過大數據篩查,確認被調查者近期去過或者路過新發地市場,要求如實填報信息,並儘快進行核酸檢測。
那麼,什麼是“大數據篩查”?大數據又是怎樣找到新發地的路過者呢?大數據在此次疫情防控中起到了什麼作用?
大數據,顧名思義其實就是海量、大量的資料,這些資料來源於隨時產生的數據;而大數據又分為狹義和廣義兩種;狹義的大數據包括個人私人信息、購物習慣、閱讀習慣等個人畫像;而廣義的大數據則是針對社會或者企業的,例如電商利用大數據分析顧客購物習慣,做好需求預測,提前佈局好倉庫存儲等等。
顯而易見的是,此次新發地的“大數據篩查”,就是廣義大數據與狹義大數據的一次有機融合,也是海量存儲和快速檢索技術的一次良好利用。
儘管官方並未公佈大數據篩查的具體方法,但中科曙光大數據總工程師首席科學家、存儲產品事業部副總經理宋懷明博士分析認為,北京之所以能夠實現利用大數據快速排查篩選新發地到訪者,有三種技術路徑可以實現。
首先是基於手機移動數據確定位置信息,也叫基源定位方法,這是最常用的方法,也是此次新發地大數據篩查當中,效率最高的手段:不過基源並不是GPS,而是通過手機基站,與GPS使用時才打開不同,手機會自動連接到距離最近的信號發射塔,手機的所有活動,都能通過包含基站信息的信令數據信號發射塔篩查回溯,這為追踪使用者的位置定位及路徑追踪,提供了真實準確的第一手數據。
其次是通過社會交往信息分析,這並不是指通過社交軟件信息判斷,而是結合已有數據,通過電話調查、摸排走訪等方式,最終形成相對可靠的數據信息,也可以在短時間內篩選出哪些人在新發地工作、哪些人曾經去過新發地、他們這幾天密切接觸了什麼人等等。
第三種方法是可以通過物品信息確認,此次新發地篩查過程中,除了對經過者、密切接觸者的篩查,也排查了不少物品和貨品,在這個過程當中,通過對特定攜帶病毒物品的路徑和接觸者追踪,同樣可以作為排查查找到新發地密切接觸者的依據之一。但宋懷明強調,這種篩查方法的數據可能並不完全,而新發地是否真的利用查物的方法尋找接觸者,目前也不能完全確定。
在官方正式回應以外,此前網上還流傳著一種是說法“支付寶和微信提供數據,鎖定35萬人,幫助病毒篩查”但這則消息很快就被兩方進行了官方闢謠。
對此,宋懷明認為,通過二維碼獲取交易記錄,可以確定交易用戶位置。但對於交易用戶的行動路徑追踪,無論是支付寶和微信都無法實現。此外,新發地作為農產品大宗批發市場,還有很多其他交易方式是通過線上轉賬或者現金的方式進行,因此支付寶微信數據,最多只能在大數據篩查當中起到一定的輔助作用。
技術革新
大數據助力流行病精準防控
除了篩查接觸到訪者,此次新發地疫情當中,大數據還起到了怎樣的作用?中國疾控中心首席專家吳尊友告訴北京科技報記者,在他看來,此次北京新發地新冠疫情過程中,大數據至少發揮了兩方面作用:一是將早期病例精準鎖定到新發地市場,及時發現傳染源,為疾病控制贏得了寶貴的時間。
二是對發現疫情以後,在去過高風險地區向外流動的人員的了解“包括暴露於環境,和接觸的人員,和密切接觸者,在北京的分佈,以及留出北京的情況,對於發現潛在感染者,阻斷傳播,起到了非常大的作用。”
實際上,不僅是北京新發地,在此次新冠肺炎疫情過程中,尤其是年初武漢疫情爆發之時,大數據篩查和分析,就對於疾病防控起到了相當重要的作用。
北京此次做到了精準分級,沒有’一刀切封城’,而以街道為單位劃分風險等級,進行分級管控,大數據起到了關鍵的作用
疫情爆發之後,數家科技互聯網公司陸續通過數據和技術能力,給全社會提供了大量數據支撐;例如百度的遷徙數據,精準計算出離開武漢和滯留武漢的人數,為政府防控提供了決策參考;再比如12306票務平台,利用實名製售票的大數據優勢,及時配合地方政府及各級防控機構,第一時間提供了確診病人車上密切接觸者信息。
此外,利用大數據技術實現信息共享、快速查詢,很多媒體平台和互聯網平台紛紛開闢了新冠肺炎動態更新、疫情展示和闢謠功能,使用者在魚龍混雜的信息當中回歸理性,讓權威信息“跑”在謠言前面,及時安撫了公眾情緒,從另一個層面“抑制”了病毒蔓延。
在預防層面,針對人員聚集可以進行預警;在擴散源頭方面,把數學模型和人員社交特徵結合,可以很好分析擴散路徑與速度,制定更有針對性的對策與措施“北京此次做到了精準分級,沒有’一刀切封城’,而以街道為單位劃分風險等級,進行分級管控。”宋懷明認為,這都是大數據起到了重要的作用。
與國內相比,在大數據預測分析流行病方面,國外已經有了比較成熟的探索和實踐,早在2008年,谷歌便發布了“Google Flu Trends”(谷歌流感趨勢),利用關鍵詞追踪技術蒐集數據,如果在某一地區的某一時間段內,有大量關於流感、發熱、感冒等關鍵詞的搜索,就表明此地存在潛在的感染人群,需要引起相關部門的重視。
谷歌曾經開發了軟件,利用大數據分析流感趨勢,但最終以失敗告終(圖片來自網絡)
2009年,墨西哥爆發的豬流感,研究人員也曾利用通信數據監測,從而獲取公眾對於政府發布的健康預警信息的反應,以指導有關部門更好調整政策;2014年埃博拉疫情在西非爆發,研究人員同樣基於手機通信數據建模,對傳染病的流行進行了判斷與分析。
不難發現,有了大數據+人工智能加持的公共衛生領域:一方面在行動效率上更高更快,有效減緩了傳染病的傳播與擴散;另一方面,同樣可以起到,提供預測與分析的重要作用。
未雨綢繆
大數據應用如何“更高、更快、更強”?
新冠疫情情暴發後,大數據在疫情排查等方面得到迅速應用,國內各領域、行業、機構、部門紛紛利用大數據技術,加強互聯互通,加速了整個社會力量的整合,對疫情處置發揮了不可小覷的作用。
但大數據應用並非完美體,隨著疫情應對的深入,它也暴露出了不少短板,和仍需提高完善的之處。
首先是準確性問題,從目前的技術水平來看,大部分城市的大數據應用,聚焦在城市日常生活管理場景、基礎保障場景,例如在金融領域、安防領域、交通規劃領域等等;但在疫情期間,需要尋求解決方案的“突發公共衛生事件場景”,不可控的因素較多,很容易讓一些常規算法暴露短板,甚至出現數據不准確的問題。
例如此次新發地防疫過程當中,由於大數據信息無法準確分辨“去過”和“路過”新發地市場的區別,加上可操作時間較短,最終出現了“一刀切”的情況,有些乘坐公共交通工具途徑新發地的市民,也收到了要求進行核酸檢測的短信或通知,讓人頗感意外。
對此吳尊友認為,大數據篩查過程當中,由於時間較短,精力有限,的確存在一些錯誤判斷的情況,有些沒有危險暴露的市民,也被要求填寫信息檢測核酸“但數量只是一小部分,目前首要任務還是控制疫情,未來還有改進提高的空間。”
宋懷明也認為,除了發短信以外,排篩查的手段也包括打電話、上門走訪和自我填報等等,目的就是為了最大程度減少在突發公衛事件當中,大數據應用的不准確性和不確定因素。
其次是大數據決策問題,宋懷明表示,從實際效果來看,大數據目前的作用,更多地依然停留在分析和輔助決策方面,只有很少一部分能夠進行自動決策“從數據角度來看,這樣的做法是更科學的,但從時間和效率來看,這樣的手段依然有較大待提升提高空間。”
出於防控需要,很多人的個人信息被“暴露”在APP、小程序或是登記單、記錄本當中,哪些是合理採集,哪些又屬於過度採集,如果個人信息洩露了怎麼辦?目前依然有待商榷(圖片來自網絡)
在數據立法、數據安全方面,相關法律法規也不夠健全:記者了解到,國家層面目前還沒有出台針對公共數據管理的法律法規,省市層面也基本處於各自為戰的局面,一些地方出台了法律條例,一些地方僅僅出台了規章辦法,還有一些地方並未就此立法。
這在無形中給數據安全和個人隱私性,帶來了不確定因素——疫情期間,多地出現了個人隱私洩露事件,引發了公眾的擔憂;出於防控需要,很多人的個人信息被“暴露”在APP、小程序或是登記單、記錄本當中,哪些是合理採集,哪些又屬於過度採集,如果個人信息洩露了怎麼辦?目前依然有待商榷,
實際上,加強信息共享,消除信息孤島,同時做好個人隱私和數據安全的保護,不僅對當下抗擊疫情至關重要,對實現政府決策科學化、社會治理精準化、公共服務高效化也有巨大的推動作用。
“未來要著力規範數據的所有權、使用權和使用規範,要保護好公眾的隱私和數據安全。”宋懷明強調,有關部門既要把握好公眾知情權,與保護公眾隱私之間的關係“也要盡可能的把公眾關心的數據全面、及時、準確地發佈出來,並充分調動社會力量積極參與,形成大數據共享的合力”。