ChatGPT在臨床決策中顯示出”令人印象深刻”的準確性
麻省綜合醫院的研究人員發現,ChatGPT 在所有醫學專科和臨床護理階段的準確率接近72%,在最終診斷方面的準確率達到77%。來自Mass General Brigham 的研究人員進行了一項研究,結果表明ChatGPT 在整個臨床決策過程中,從提出潛在診斷到最終診斷和確定護理管理策略,準確率約為72%。
這款基於擴展語言模型的人工智能聊天機器人在不同醫療領域的初級保健和急診環境中都表現出了一致的性能。研究結果最近發表在《醫療互聯網研究雜誌》上。
“我們的論文全面評估了通過ChatGPT 提供的決策支持,從一開始與病人打交道到整個護理場景,從鑑別診斷一直到檢測、診斷和管理,”論文通訊作者、麻省總醫院創新和商業化副主席兼戰略創新領導者、MESH 孵化器執行主任Marc Succi 博士說。
“目前還沒有真正的基準,但我們估計這種表現相當於醫學院剛畢業的實習生或住院醫師的水平。這告訴我們,一般來說,LLM 有潛力成為醫學實踐的輔助工具,並以令人印象深刻的準確性支持臨床決策。”
人工智能技術的變化日新月異,正在改變包括醫療保健在內的許多行業。然而,人們還沒有研究過LLM 在臨床護理中的全面輔助能力。在這項關於如何將LLMs 用於臨床建議和決策的跨專業綜合研究中,Succi 和他的團隊測試了一個假設,即ChatGPT 能夠在與患者的整個臨床接觸過程中提出診斷建議,決定臨床管理方案,並最終做出診斷。
這項研究是通過將36 個已發表的標準化臨床案例的連續部分粘貼到ChatGPT 中完成的。首先,要求該工具根據患者的初始信息(包括年齡、性別、症狀以及是否急診)提出一系列可能的診斷或鑑別診斷。然後,ChatGPT 獲得更多信息,並被要求做出處理決定和給出最終診斷–模擬真實病人就診的整個過程。研究小組在結構化盲法過程中比較了ChatGPT 在鑑別診斷、診斷檢測、最終診斷和處理方面的準確性,對正確答案給予評分,並使用線性回歸評估ChatGPT 的表現與小插圖人口統計信息之間的關係。
研究人員發現,總體而言,ChatGPT 的準確率約為72%,在最終診斷方面表現最佳,準確率為77%。在進行鑑別診斷時,它的準確率最低,只有60%。而在臨床管理決策方面,如在得出正確診斷後決定用什麼藥物治療病人,其準確率僅為68%。研究中其他值得注意的發現包括,ChatGPT 的答案沒有顯示出性別偏見,其在初級和急診護理中的整體表現穩定。
“ChatGPT 在鑑別診斷方面表現不佳,而鑑別診斷是醫生必須弄清楚該怎麼做的醫學難題,”Succi 說。”這一點很重要,因為它告訴我們醫生在哪些方面才是真正的專家,並能帶來最大的價值–在病人護理的早期階段,幾乎沒有什麼現成的信息,這時需要一份可能的診斷清單。”
作者指出,在考慮將ChatGPT 等工具整合到臨床護理中之前,需要更多的基準研究和監管指導。下一步,Succi 的團隊將研究人工智能工具能否改善醫院資源有限地區的病人護理和治療效果。
人工智能工具在醫療領域的出現具有開創性意義,有可能積極重塑醫療服務的連續性。麻省總醫院布里格姆分院作為全美頂尖的綜合學術醫療系統和最大的創新企業之一,在對新興技術進行嚴格研究方面處於領先地位,為將人工智能負責任地融入醫療服務、勞動力支持和管理流程提供依據。
Mass General Brigham 首席信息官兼數字高級副總裁Adam Landman(醫學博士、理學碩士、醫學信息管理碩士、MHS)表示:”Mass General Brigham 認為LLM 在幫助改善醫療服務和臨床醫生體驗方面大有可為。我們目前正在評估LLM 解決方案,以協助臨床工作。”