來自美國最大COVID-19數據集的機器學習模型已可預測疾病的嚴重程度
今天發表的一篇新論文顯示去年建立的一個集中的COVID-19健康記錄庫開始顯示出成果。該資料庫是迄今為止最大的一套COVID-19記錄,由一個研究人員和數據專家團隊在去年建立,以幫助理解COVID-19的嚴重程度。
這項研究發表在《美國醫學會雜誌網絡版》上,研究了COVID-19嚴重病例的風險因素,並追踪了該疾病隨時間推移的進展情況。作者建立了機器學習模型,根據在醫院第一天收集的信息預測哪些住院病人會發展成嚴重疾病。
使用被稱為國家COVID隊列協作數據飛地,簡稱N3C的集中式數據庫意味著研究團隊能夠將數十萬病人的記錄納入其分析中。該研究使用了來自34個醫療中心的數據,包括100多萬成年人–174568名COVID-19檢測呈陽性的人和1133848名檢測呈陰性的人,包括從2020年1月到2020年12月的記錄。
該分析顯示了在2020年期間COVID-19的治療方法是如何變化的,因為醫生嘗試了新的治療方法並獲得了更多的經驗。使用抗瘧疾藥物羥氯喹治療的患者比例到2020年5月下降到幾乎為零,這種藥物在證明無效之前曾被前總統唐納德·特朗普推廣,隨後在研究表明類固醇地塞米松可以提高生存率之後,6月份的使用量有所上升。
數據集還證實,在2020年期間,COVID-19患者的存活率有所提高。在3月和4月,入院的COVID-19患者中有16%死亡。在9月和10月,這一比例降至略低於9%。
當重症患者到達醫院時,心率、呼吸率和體溫較高的人更有可能需要強烈的干預措施,如通氣措施,他們也更有可能死亡。白細胞計數、炎症、血液酸度和腎臟功能的異常也與更嚴重的病例有關。研究小組利用這些數據點和其他數據點建立了機器學習模型,可以預測哪些病人會得重病。作者寫道,這些模型最終可以作為決策工具的基礎,並進行額外的測試。
研究人員從該大流行病一開始就一直在分析COVID-19的發展軌跡。這項研究的優勢在於從一個龐大而多樣的數據集中提取–它不限於一家醫院或一個州。在美國,研究人員通常僅限於研究他們工作的機構中的病人的醫療記錄。這意味著他們能夠納入研究的記錄數量可能是有限的,而且他們不能輕易檢查他們的結論是否適用於其他地方。
像N3C這樣的資源,匯集了幾十個機構的記錄,避開了這些限制。到目前為止,N3C包括來自73個衛生機構的數據,並有超過200萬COVID-19患者的記錄。200多個使用這些數據的研究項目正在進行中,包括研究COVID-19再感染的風險因素和該疾病對懷孕的影響。
但是它並不完美–將各醫院的信息標準化是困難的,而且可能沒有許多病人的完整數據。然而,擁有這樣一個龐大的數據集是非常寶貴的。
閱讀文獻原文: