IBM推出開源工具助力COVID-19數據分析
據外媒報導,IBM的開源數據和人工智能技術中心(CODAIT)正在發布一個新的工具包,幫助開發人員和數據科學家回答有關疫情的問題。C OVID notebooks旨在幫助完成一些任務,包括獲取有關疫情現狀的權威數據,清理最嚴重的數據質量問題,將數據整理成便於使用Pandas和Scikit-Learn等工具進行分析的格式,以及構建一組初始的示例報告和圖表。
處理好這些任務,開發人員和數據科學家就可以解放出來,專注於高級分析和建模任務,而不用擔心數據格式和數據清理等問題。該存儲庫使用開發者友好的Jupyter notebook來涵蓋每個初始數據分析步驟。此外還有使用Elyra Notebook Pipelines Visual Editor和KubeFlow Pipelines的數據處理管道。
“對於正在分析COVID-19效果並試圖根據數據提出可操作計劃的數據科學家和政策制定者來說,信息景觀是壓倒性的,”IBM開源數據和AI技術中心的首席架構師Frederick Reiss說。“來自研究報告、新聞媒體、社交媒體和健康組織的數據幾乎源源不斷,這使得將數據分析為有用的行動的任務幾乎不可能完成。開發人員和數據科學家需要回答他們關於數據來源、工具以及如何從不斷變化的數據中得出有意義的、統計上有效的結論的問題。”