洞查數據背後MSRA 推出新冠數據分析網站
這場疫情再次拉近了我們和科學家之間的距離。疫情之下,科研人員的一次次探索與發現,都成為公眾關注的焦點和政策制定的依據。獲取最新科研信息,對我們建立更立體、客觀的新冠疫情認知,有著關鍵意義。
近日,微軟亞洲研究院(Microsoft Research Asia,MSRA)推出了一個新冠數據分析網站COVID Insights,旨在通過較為全面的疫情數據,達到支持學術研究和向公眾科普的目的。
COVID Insights 網站基於計算生物學、數據分析等領域的專業知識和研究經驗,使用了約翰霍普金斯大學、美國疾病控制與預防中心、GISAID 等機構的官方數據,主要分為感染數據分析、基因組和蛋白質結構、研究趨勢三大板塊。
跨國家或地區比較傳播動態
哪些地區的疫情發展趨勢比較接近?有些國家的數據降下來了,他們的做法值得參考嗎?
實質上,“感染數據分析”板塊對這類問題給出了答案——通過微軟亞洲研究院對COVID-19 數據的分析,流行病學參數對特定國家與地區的疾病傳播動態的影響便一目了然。
例如,澳大利亞2020 年2 月3 日至2020 年4 月26 日的疫情傳播趨勢與冰島2 月1 日至4 月17 日的趨勢相似度為56%,因此冰島便可以藉鑑澳大利亞的疫情防控措施。
而通過移動光標的位置,將時間限定在3 月22 日至4 月15 日,可以發現這一時期澳大利亞的傳播趨勢與韓國在2 月29 日至3 月17 日的趨勢相似度為80%,因此澳大利亞便可以參考韓國在2020 年3 月中下旬的防控措施。
眾所周知,當前美國新冠肺炎確診人數逼近100 萬,若利用這一功能,我們可以看到3 月20 日至4 月26 日(目前該功能的數據只更新至4 月26 日)美國的疫情發展趨勢和兩週前的伊朗有75% 的相似度,那麼此時參考對方的措施不失為一種可行的方案。
這一功能的數據集來源於約翰霍普金斯大學系統科學與工程中心公佈的新冠疫情數據。
SARS-CoV-2 的病毒學分析結果
相比上述板塊,“基因組和蛋白質結構”板塊則顯得比較抽象了,該板塊展示了SARS-CoV-2(新型冠狀病毒)的病毒學分析結果,主要將目光放在SARS-CoV-2 病毒本身,主要包括以下兩個功能:
第一,基因組與蛋白質結構。
前不久,外媒“新冠病毒來自武漢”的說法引起了軒然大波。實際上,早在2020 年2 月20 日,中國科學院西雙版納熱帶植物園就曾發布了研究成果,稱武漢華南海鮮市場的新型冠狀病毒是從其他地方傳入的,於是便出現了新冠病毒“國外起源論”。
在這一研究中,有一幅非常複雜的圖,實際上就反映出了病毒基因組變異的問題。實際上,就病毒基因組變異而言,如今全球已經有了很多的研究數據。
根據網站介紹,微軟亞洲研究院從全球流感序列數據庫 GISAID 上下載了SARS-CoV-2 基因組數據,以病毒株Wuhan-Hu-1 作為參考序列確定出各病毒序列發生變異的氨基酸及其位置。
因此,通過在下拉列表中選定某一個大洲,我們就能直觀地看到特定核酸片段上發生變異的氨基酸的數目、地區分佈與變異時間線。
同時,網站上經 SARS-CoV-2 病毒核酸序列轉化得到的蛋白質三維結構,也為相關研究提供了參考。
第二,與其他冠狀病毒的比較。
據了解,當前在全球肆虐的SARS-CoV-2 病毒是目前已知的第7 種可以感染人的冠狀病毒,其餘6 種中就包括我們可能已經不陌生的SARS-CoV(引發“非典”的病毒)和MERS-CoV(引發中東呼吸綜合徵的病毒)。
除了拿 SARS-CoV-2 與SARS-CoV、MERS-CoV 進行比較,在 COVID Insights 網站上還有SARS-CoV 和另外兩種病毒的比較。
值得一提的是,這兩種病毒 Bat-CoV 和 Pangolin-CoV 分別來自此前新冠病毒潛在中間宿主的熱門人選中華菊頭蝠和馬來穿山甲。
根據 COVID Insights 網站,Bat-CoV、Pangolin-CoV、SARS-CoV、MERS-CoV 與 SARS-CoV-2 的相似度依次遞減,分別為96%、90%、79%、49%。
全球新冠研究趨勢
2020 年1 月1 日至2020 年4 月22 日,眾多領域科研人員都做出了非常多的研究。微軟亞洲研究院通過統計、整合論文開放獲取數據庫COVID-19 Open Research Dataset 的數據,根據不同時間段(按週統計),做出了流行病學、社會科學、 病毒學、診斷學四個領域的新冠研究趨勢詞云。
因此我們可以發現,2020 年2 月26 日至2020 年3 月4 日那一周,流行病學研究中“transmission”(傳播)一詞出現的頻率較高。
2020 年4 月8 日至2020 年4 月15 日那一周,社會科學研究中,“number”(數字)一詞成為關鍵詞。
值得一提的是,COVID Insights 網站也將流行病學、社會科學、 病毒學、診斷學四個領域的高引用論文列了出來,這樣一來,公眾也在某種程度上降低了受低質量論文誤導的風險。
實際上,近一段時間以來,疫情相關的學術論文呈現出井噴式增長態勢,低質量研究論文氾濫的現像也相當嚴重。2020 年4 月23 日,卡內基梅隆大學道德與政策中心主任Alex John London 和麥吉爾大學生物醫學倫理部教授兼主任Jonathan Kimmelman 也在《科學》雜誌發表文章,發出呼籲:
不應以COVID-19 疫情爆發的緊迫性為藉口,在病毒研究和疫苗研發等方面降低科研標準。
可見,雖然COVID Insights 網站目前的數據並非特別全面,但的確在加速優質科研信息的互通互享方面發揮了重要的作用。正如比爾·蓋茨所說:
這次疫情是現代社會第一場真正意義的大流行病。這就像一場世界大戰,不同的是,這次我們都在同一條戰線。