人工智能調用Google趨勢數據來預測有多少人會感染流感
根據估計,流感每年導致超過3140萬次門診訪問,超過20萬人次前往急診室和醫院。毋庸置疑,有足夠的動力來預測流感爆發的範圍和嚴重程度,研究AI增強預測的研究人員正在取得進展。在Arxiv.org上發表的一篇論文《使用谷歌趨勢預測流感》中,來自東京大學的科學家們描述了一個系統,該系統可以利用谷歌趨勢的數據,這一工具分析了流感流行趨勢,並且利用Google搜索中的熱門搜索查詢,以提高精確度。
該團隊利用一種稱為序列到序列的人工智能模型,它可以根據內部信號選擇性地處理輸入數據。像大多數機器學習系統一樣,序列到序列模型由數學函數層(神經元)組成,攝取數據並將其傳遞給後續層,在此過程中調整神經元之間連接的強度(權重)。編碼器組件輸出對應於輸入的編碼矢量,而解碼器編碼輸入矢量並預測下一個時間步輸出。
至於上述谷歌趨勢數據,研究人員用它來衡量人們在任何特定時間點對流感的興趣。具體來說,他們在“流感”這個詞的檢索頻率上進行了磨練,作為該模型的補充信息,這有助於補償從流感樣疾病原始數據當中獲得的信息。總而言之,研究小組使用了六個州(紐約、俄勒岡州、加利福尼亞、伊利諾伊、德克薩斯和喬治亞州)未加權的流感樣疾病感染者比例,這些州因其氣候多樣性而被選中。研究人員將這些數據與2010年10月10日至2018年12月30日(430週)的谷歌趨勢數據相結合。大約67%的數據用於訓練人工智能模型,37%用於測試。
研究人員警告說,峰值隨著預測時間的增加而向下移動,因為無法從學習數據中準確預測峰值時間。然而,他們認為,添加一個領先指標(這些指標留給將來的工作)可以進一步提高預測準確性。