Google的Med-Gemini醫療人工智慧模型被證明表現不輸人類醫生
Google研究院和Google的人工智慧研究實驗室DeepMind 詳細介紹了Med-Gemini(一個專門用於醫學的高級人工智慧模型系列)的驚人影響力。這是臨床診斷領域的一大進步,具有巨大的現實潛力。
醫生每天要治療眾多病人,他們的需求從簡單到非常複雜。為了提供有效的醫療服務,他們必須熟悉每位患者的健康記錄,以了解最新的治療程序和治療方法。此外,建立在同理心、信任和溝通基礎上的醫病關係也至關重要。要想讓人工智慧接近真實世界中的醫生,它必須能夠做到這一切。
Google的Gemini模型是新一代多模態人工智慧模型,這意味著它們可以處理來自不同模態的訊息,包括文字、圖像、視訊和音訊。這些模型擅長語言和對話,理解它們所訓練的各種信息,以及所謂的”長語境推理”,即從大量數據(如數小時的視頻或數十小時的音頻)中進行推理。
Gemini醫學模式具有Gemini基礎模型的所有優點,但對其進行了微調。研究人員測試了這些以藥物為重點的調整,並將結果寫入了論文中。這篇論文長達58 頁,內容豐富,我們選取了其中最令人印象深刻的部分。
自我訓練和網路搜尋功能
要做出診斷並制定治療方案,醫生需要將自己的醫學知識與大量其他相關資訊結合:病人的症狀、病史、手術史和社會史、化驗結果和其他檢查結果,以及病人對先前治療的反應。治療方法是”流動的盛宴”,現有的治療方法會不斷更新,新的治療方法也會不斷推出。所有這些都會影響醫生的臨床推理。
因此,Google在Med-Gemini 中加入了網路搜尋功能,以實現更高階的臨床推理。與許多以醫學為重點的大型語言模型(LLM)一樣,Med-Gemini 也是在MedQA 上進行訓練的,MedQA 是美國醫學執照考試(USMLE)的多選題,旨在測試不同場景下的醫學知識和推理能力。
Med-Gemini 如何使用自我訓練和網路搜尋工具
不過,Google也為他們的模型開發了兩個新的資料集。第一個是MedQA-R(推理),它透過合成生成的推理解釋(稱為”思維鏈”,CoTs)對MedQA 進行了擴展。第二種是MedQA-RS(推理和搜尋),它為模型提供使用網路搜尋結果作為額外上下文的指令,以提高答案的準確性。如果一個醫學問題的答案不確定,就會提示模型進行網路搜索,以獲取更多資訊來解決不確定問題。
Med-Gemini 在14 個醫學基準上進行了測試,並在10 個基準上建立了新的最先進(SoTA)性能,在可以進行比較的每個基準上都超過了GPT-4 模型系列。在MedQA(USMLE)基準測試中,Med-Gemini 利用其不確定性指導搜尋策略達到了91.1% 的準確率,比Google之前的醫學LLM Med-PaLM 2高出4.5%。
在包括《新英格蘭醫學雜誌》(NEJM)影像挑戰(具有挑戰性的臨床病例影像,從10 個病例中做出診斷)在內的7 項多模態基準測試中,Med-Gemini 的表現優於GPT-4,平均相對優勢為44.5%。
研究人員說:「雖然結果……很有希望,但還需要進一步進行大量研究。例如,我們還沒有考慮將搜尋結果限制在更具權威性的醫學來源上,也沒有考慮使用多模態搜尋檢索或對搜尋結果的準確性和相關性以及引文的品質進行分析。 。
從冗長的電子病歷中檢索特定訊息
電子病歷(EHR)可能很長,但醫生需要了解其中包含的內容。更複雜的是,它們通常包含相似的文字(”糖尿病”與”糖尿病腎病變”)、拼字錯誤、縮寫(”Rx”與”prescription”)和同義詞(”腦血管意外”與”中風”) ,這些都會為人工智慧帶來挑戰。
為了測試Med-Gemini理解和推理長語境醫療資訊的能力,研究人員使用一個大型公開資料庫–重症監護醫療資訊市場(MIMIC-III)–執行了一項所謂的”大海撈針任務”,該資料庫包含重症監護患者的去識別化健康資料。
該模型的目標是在電子病歷(”海”)中的大量臨床記錄中檢索到與罕見而微妙的醫療狀況、症狀或程序(”針”)相關的內容。
總共收集了200 個案例,每個案例都由44 名病史較長的重症監護室患者的去識別化電子病歷記錄組成。他們必須具備以下條件:
- 100 多份醫學筆記,每個例子的長度從20 萬字到70 萬字不等
- 在每個例子中,條件只被提及一次
- 每個樣本都有一個感興趣的條件
這項大海撈針的任務分為兩個步驟。首先,Med-Gemini 必須從大量記錄中檢索所有與指定醫療問題相關的內容。其次,該模型必須評估所有提及內容的相關性,對其進行分類,並得出結論:患者是否有該問題的病史,同時為其決定提供清晰的推理。
Med-Gemini 的長語境能力範例
與SoTA 方法相比,Med-Gemini 在”大海撈針”任務中表現出色。它的精確度為0.77,而SoTA 方法為0.85,召回率也超過了SoTA 方法:0.76 對0.73。
研究人員說:”也許Med-Gemini 最引人注目的方面是長語境處理能力,因為它們為醫療人工智能係統開闢了新的性能前沿和新穎的、以前不可行的應用可能性。這項’大海撈針’式的檢索任務反映了臨床醫生在現實世界中面臨的挑戰,Med-Gemini-M 1.5 的性能表明,它有潛力通過從海量患者數據中高效提取和分析信息,顯著降低認知負荷,增強臨床醫生的能力。
有關這些關鍵研究點的淺顯易懂的討論,以及Google和微軟之間爭論的最新情況,請觀看《AI Explained》從13:38 開始的影片。
新的OpenAI 模型即將誕生,人工智慧的賭注又提高了(還有Med Gemini、GPT 2 聊天機器人和Scale AI)
與Med-Gemini 對話
在一次實際應用測試中,Med-Gemini 收到了一位患者使用者對皮膚腫塊搔癢的詢問。在要求提供影像後,模型提出了適當的後續問題,並正確診斷了這種罕見的病變,同時建議使用者下一步該怎麼做。
Med-Gemini 診斷對話在皮膚科的應用實例
Med-Gemini 也被要求在醫生等待放射科醫師的正式報告期間,為其解讀胸部X 光片,並編寫一份簡單易懂的英文版報告提供給病人。
Med-Gemini 的放射診斷對話輔助系統
研究人員說:”Med-Gemini-M 1.5 的多模態對話功能很有前景,因為它們無需進行任何特定的醫療對話微調即可實現。這些功能可以實現人、臨床醫生和人工智慧系統之間無縫、自然的互動。
不過,研究人員認為還需要進一步的工作。他們說:「這種能力在幫助臨床醫生和患者等現實世界應用方面具有巨大潛力,但當然也會帶來非常大的風險。在強調這一領域未來研究潛力的同時,我們並沒有在這項工作中對臨床對話的能力進行嚴格的基準測試,正如其他人之前在對話診斷人工智慧的專門研究中所探索的那樣。
未來願景
研究人員承認,要做的工作還有很多,但Med-Gemini 模型的初步能力無疑是很有希望的。重要的是,他們計劃在整個模型開發過程中納入負責任的人工智慧原則,包括隱私和公平。
隱私方面的考量尤其需要植根於現有的醫療保健政策和法規,以管理和保護病患資訊。公平性是另一個可能需要關注的領域,因為醫療保健領域的人工智慧系統有可能無意中反映或放大歷史偏見和不公平,這可能導致邊緣化群體的不同模型效能和有害結果。但歸根究底,Med-Gemini 被視為一種造福人類的工具。
大型多模態語言模式為健康和醫學帶來了一個全新的時代。 Gemini”和”醫學Gemini”所展示的能力表明,在加速生物醫學發現、協助醫療保健服務和體驗的深度和廣度方面,都有了重大飛躍。然而,在提高模型能力的同時,必須對這些系統的可靠性和安全性給予細緻的關注。
研究可透過預印本網站arXiv取得。