研究顯示AI大語言模型在處理醫療編碼方面有明顯局限性
西奈山伊坎醫學院(Icahn School of Medicine at Mount Sinai)的研究人員發現,最先進的人工智慧系統,特別是大型語言模型(LLMs)在醫學編碼方面表現不佳。他們的研究最近發表在NEJM AI 雜誌上,強調在考慮臨床應用之前,有必要對這些技術進行改進和驗證。
這項研究從西奈山醫療系統12 個月的常規護理中提取了27,000 多個獨特的診斷和手術代碼,同時排除了可識別的患者數據。透過每個代碼的描述,研究人員促使OpenAI、Google和Meta 的模型輸出最準確的醫療代碼。研究人員將產生的程式碼與原始程式碼進行了比較,並分析了錯誤的模式。
研究人員報告說,所研究的所有大型語言模型,包括GPT-4、GPT-3.5、Gemini-pro 和Llama-2-70b 在再現原始醫療代碼方面都顯示出有限的準確性(低於50%) ,這突顯出這些模型在醫療編碼的實用性方面存在很大差距。 GPT-4 的表現最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和CPT 代碼(49.8%)的精確匹配率最高。
GPT-4 也產生了最高比例的錯誤代碼,但仍然表達了正確的意思。例如,當給出ICD-9-CM 中”結節性前列腺,無尿路梗阻”的描述時,GPT-4 產生了”結節性前列腺”的代碼,展示了其對醫學術語相對細微的理解。然而,即使考慮到這些技術上正確的程式碼,仍然存在大量令人無法接受的錯誤。
其次是GPT-3.5 模型,此模型的模糊傾向最大。與準確的程式碼相比,它錯誤產生的程式碼中準確但較為籠統的程式碼比例最高。在這種情況下,當提供ICD-9-CM 描述”未指定的麻醉不良反應”時,GPT-3.5 產生的代碼為”其他未在別處分類的特定不良反應”。
研究報告的通訊作者、伊坎山西奈醫院數據驅動與數位醫學(D3M)和醫學(消化內科)助理教授、醫學博士、理學碩士阿里-索羅什(Ali Soroush)說:”我們的研究結果突出表明,在醫療編碼等敏感業務領域部署人工智慧技術之前,亟需進行嚴格的評估和改進。和有效性。
研究人員說,這些模型在醫療保健行業的一個潛在應用是根據臨床文本自動分配醫療代碼,用於報銷和研究目的。
“先前的研究表明,較新的大型語言模型在處理數字任務時非常吃力。然而,這些模型從臨床文本中分配醫療代碼的準確程度尚未在不同的模型中得到深入研究,”共同第一作者、 D3M 的生成式人工智慧研究計畫主任、醫學博士Eyal Klang 說。 “因此,我們的目的是評估這些模型能否有效地完成將醫療代碼與其相應的官方文本描述相匹配的基本任務。”
研究報告的作者提出,將LLM 與專家知識相結合可以實現醫療代碼提取的自動化,從而有可能提高帳單的準確性並降低醫療保健的管理成本。
“這項研究揭示了人工智慧在醫療保健領域的現有能力和挑戰,強調了在廣泛採用之前進行仔細考慮和進一步完善的必要性,”共同第一作者、西奈山伊坎大學醫學教授、查爾斯-布朗夫曼個人化醫學研究所所長兼D3M 系統主管艾琳-費什伯格博士(Irene and Dr. Arthur M. Fishberg)醫學博士、醫學博士吉里什-納德卡爾尼(Girish Nadkarni)說。
研究人員提醒說,這項研究的人工任務可能並不能完全代表真實世界的情況,在這種情況下,LLM 的表現可能會更糟。
下一步,研究團隊計劃開發量身定制的LLM 工具,用於準確提取醫療數據和分配帳單代碼,以提高醫療營運的品質和效率。
編譯來源:ScitechDaily