新研究:醫用AI評估精神分裂新病患治療效果近乎盲猜
一項最新研究發現,用於協助醫生治療精神分裂症患者的電腦演算法無法很好地適應先前開發過程中未見過的新鮮數據。因此這種醫用人工智慧在評估未曾接觸過的患者的治療效果時,表現十分糟糕。
這些醫用工具利用人工智慧來發現大數據集中的特徵,並預測個體對特定治療的反應,這是精準醫療的核心。醫療保健專業人員希望使用這種工具為每位患者量身定制治療方案。在一篇發表在《科學》雜誌上的文章中,研究人員指出,人工智慧模型可以高度準確地預測訓練樣本中所涉及患者的治療結果。但是,在處理之前未見過的患者數據時,該模型的表現會顯著下降,甚至只比隨機猜測略高。
為了確保精準醫療的有效性,預測模型需要在不同情況下保持穩定準確性,並將偏差或隨機結果出現的可能性降至最低。
「這是一個人們還沒有意識到的大問題,」研究報告的合著者、康涅狄格州紐黑文耶魯大學精神病學家亞當·切克魯德(Adam Chekroud)表示。“這項研究基本上證明了演算法仍需要在多個樣本上進行測試。”
演算法的準確性
研究人員評估了一種通常用於精神病預測模型的演算法。他們使用了五項抗精神病藥物臨床試驗的數據,涉及北美、亞洲、歐洲和非洲1513名被診斷出患有精神分裂症的志願者。這些試驗在2004年至2009年間進行,測量志願者服用三種抗精神病藥物中的一種之前以及四周後的症狀。
研究團隊以資料集訓練演算法,預測患者經過四周抗精神病藥物治療後的症狀改善程度。首先,研究人員在開發演算法的試驗中測試了演算法的準確性,將預測結果與試驗中記錄的實際效果進行比較,發現準確率很高。
然後,他們使用了多種方法來評估這個人工智慧模型分析新數據的準確性。研究人員用一個臨床試驗的資料子集訓練模型,然後將其應用於同一試驗的另一個資料子集。他們也用一次試驗或一組試驗的所有資料訓練演算法,然後透過其他臨床試驗資料測試模型表現。
結果發現,人工智慧模型在這些測試中表現不佳,當應用於未經訓練的資料集時,模型產生的預測似乎幾乎是隨機的。研究團隊使用不同的預測演算法重複進行,但得到的結果都差不多。
更好的測試
這項研究的作者表示,他們的發現凸顯出臨床預測模型應該如何在大型資料集上進行嚴格測試,確保它們的可靠性。一項對308個精神病預後臨床預測模型的系統性回顧發現,只有大約20%的模型在開發所用樣本以外的資料集上進行了驗證。
「我們應該更像研發藥物那樣思考模型開發,」切克魯德說。他解釋說,許多藥物在早期臨床試驗中表現不錯,但在後期階段就會出現問題。“我們必須嚴格遵守如何開發以及測試這些演算法的原則,不能只做一次就認為這是真的。”