DeepMind旗下對話式診斷系統AMIE透過圖靈測試大模型醫生來了?
AI在醫療領域再次發光!Google DeepMind團隊發布的全新診斷對話式AI在測試中擊敗醫生,並通過了圖靈測試,再次引領醫療AI的革命。
我們需要研發對人類有益AGI的原因之一:
我妻子的身體5年來經歷了種種痛苦,最後被檢視出一種叫肢體活動過度Ehlers-Danlos症候群的遺傳疾病。現在的醫療體係是根據不同科別劃分,而這個遺傳病hEDS會影響人體各個系統和器官。大多醫生只關注自己專業相關的症狀,很難整體診斷。
OpenAI聯創Greg Brockman的一番話點明,目前先進AI系統還需不斷演進,有望破解人類醫學難題。
這足以成為巨大遊戲規則的改變者。眾所周知,醫病對話是醫學的基石。
目前醫學大模型已取得很大的進展,以同理心回應病患情緒,總結醫學摘要,根據臨床病史鑑別診斷病情等等。
不過,若想研發一個與臨床醫師專業知識相當的AI,並且擁有強大的對話診斷能力,是一個巨大的挑戰。
如今,GoogleDeepMind研究團隊推出全新的醫學對話AI——AMIE,竟通過了「圖靈測試」!
論文網址:https://arxiv.org/pdf/2401.05654.pdf
具體來說,AMIE採用了一種強化學習演算法中「自我博弈」方法,可以在一個模擬環境中自我對弈,並透過自動回饋機制,可在各種疾病、醫學專科和環境中進行擴展學習。
在病人雙盲文本測試中,AMIE在診斷呼吸系統和心血管疾病等疾病直接擊敗醫生,比初級保健醫生(PCP)更準確。
同時,AMIE也表現出一致的同理心。
論文稱,雖然在AMIE在臨床應用前還需要進一步的研究,但代表著邁向對話式診斷人工智慧的里程碑。
足見,Google最新研究暗示了AI驅動的診斷對話的未來。不久的將來,Greg口中的AGI便會降臨。
GoogleAI醫師通過圖靈測試,診斷對話AI里程碑
除了開發和優化用於診斷對話的人工智慧系統外,如何評估此類系統也是一個難題。
受現實世界中用於衡量會診品質和臨床溝通技巧的工具的啟發,研究人員建立了一個試驗性評估標準,按照病史採集、診斷準確性、臨床管理、臨床溝通技巧、關係培養和移情等標準來評估診斷對話的過程。
然後,研究人員設計了一項隨機、雙盲交叉研究,讓經過驗證的患者與經過認證的初級保健醫生(PCP)或針對診斷對話進行優化的人工智慧系統透過文字聊天的方式進行互動。
研究人員以客觀結構化臨床考試(OSCE)的形式設定諮詢場景。
OSCE是現實世界中常用的實用評估方法,以標準化和客觀的方式檢視臨床醫師的技能和能力。
在典型的OSCE考試中,臨床醫生可能會輪流經過多個工作場景,每個工作場景都模擬了真實的臨床場景。
例如與標準化病人演員(經過嚴格訓練以模擬患有特定疾病的病人)進行會診。
會診是透過同步文字聊天工具進行的,模仿的是當今大多數使用LLM的消費者所熟悉的介面。
AMIE:基於LLM的對話式診斷研究AI系統
研究人員在真實世界的資料集上訓練AMIE,這些資料集包括醫學推理、醫學總結和真實世界的臨床對話。
使用透過被動收集和轉錄個人臨床存取而開發的真實世界對話來訓練LLM是可行的,但是,有兩個重大挑戰限制了它們在訓練醫學對話LLM方面的有效性。
首先,現有的真實世界數據往往無法捕捉到大量的醫療條件和場景,這阻礙了數據的可擴展性和全面性。
其次,從真實世界對話記錄中獲得的數據往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明確的引用。
為了解決這些局限性,研究人員設計了一個基於自演的模擬學習環境,該環境具有自動反饋機制,用於虛擬醫療環境中的診斷性醫療對話,使研究人員能夠在多種醫療條件和環境中擴展AMIE的知識與能力。
除了所描述的真實世界數據的靜態語料庫之外,研究人員還利用該環境透過不斷變化的模擬對話集對AMIE進行了反覆微調。
這個過程包括兩個自我循環:
(1)「內部」自演循環,即AMIE利用上下文中批評者的回饋來完善其與人工智慧患者模擬器進行模擬對話的行為;
(2)「外部」自演循環,即完善的模擬對話集被納入後續的微調迭代中。
由此產生的新版AMIE可以再次參與內循環,形成良性的持續學習循環。
此外,研究人員也採用了推理時間鏈策略( inference time chain-of-reasoning strategy),使AMIE能夠根據當前對話的情況逐步完善自己的回答,從而得出有理有據的答复。
研究人員採用上述隨機方法測試了模擬患者(由專業的演員扮演)的問診表現,並與20名真實初級保健醫生的問診表現進行了對比。
在一項隨機、雙盲交叉研究中,研究人員從專科主治醫師和模擬患者的角度對AMIE和初級保健醫生進行了評估,該研究包括來自加拿大、英國和印度OSCE提供者的149個病例場景,涉及各種專科和疾病。值得注意的是,研究人員的研究既不是為了模仿傳統的面對面OSCE評估,也不是為了模仿臨床醫生通常使用的文字、電子郵件、聊天或遠距醫療方式。
相反,研究人員的實驗反映了當今消費者與LLM互動最常見的方式,這是人工智慧系統參與遠端診斷對話的潛在可擴展且熟悉的機制。
AMIE擊敗醫生
在這種情況下,研究人員觀察到AMIE在模擬診斷對話中的表現至少與初級保健醫生不相上下。
從專科醫生的角度來看,AMIE的診斷準確性更高,在32個指標中的28個指標上表現更優,從患者的角度來看,在26個指標中的24個指標上表現更優。
AMIE在研究人員設定的評估中各個指標上都超越了初級保健醫生。
專家評定的top-k診斷準確率。在149種情況下,AMIE和初級保健醫生的頂k鑑別診斷(DDx)準確率與基本真實診斷(a)和公認鑑別診斷中列出的所有診斷(b)進行比較。導引法(n=10,000)證實,經過誤診率(FDR)校正後,AMIE 和PCP DDx 準確度之間的所有top-k 差異均具有顯著性,p <0.05。
由專科醫生評估的診斷性對話和推理品質:在32個指標中的28個指標上,AMIE的表現優於初級保健醫生,而其他指標的表現相當。
AMIE成為臨床醫師助理的潛力
在最近發布的一篇預發表論文中,研究人員評估了AMIE 系統早期迭代版本單獨產生DDx 或作為臨床醫生輔助工具的能力。
二十名全科臨床醫生評估了303個來自《新英格蘭醫學雜誌》(NEJM)臨床病理會議(CPC)的具有挑戰性的真實醫療病例。
每份病例報告都由兩位臨床醫生進行評估,他們被隨機分配了兩種輔助方式之一:
1)搜尋引擎和標準醫學資源的輔助,
2)這些工具之外的AMIE輔助。
在使用相應的輔助工具之前,所有臨床醫生都提供了無輔助的基線DDx。
AMIE的獨立表現超過了無輔助臨床醫師(前10 名的準確率為59.1%,醫師為33.6%,P= 0.04)。
比較兩個輔助研究方式,與沒有AMIE輔助的臨床醫生(24.6%,p<0.01)和使用搜尋的臨床醫生(5.45%,p=0.02)相比,有AMIE 輔助的臨床醫生的前10名準確率更高。
此外,與沒有AMIE輔助的臨床醫師相比,有AMIE輔助的臨床醫師所得出的鑑別清單更全面。
值得注意的是,NEJM CPCs並不代表日常臨床實務。它們是僅針對幾百人的不常見的病例報告,為探討公平或公正等重要問題提供的空間還比較有限。
大膽而負責任的醫療保健研究–可能的藝術
在世界各地,獲得臨床專業知識的機會仍然很少。
雖然人工智慧在特定的臨床應用中顯示出巨大的前景,但參與臨床實踐中的動態、對話式診斷過程需要許多人工智慧系統尚未表現出的能力。
醫生不僅要掌握知識和技能,還要恪守各種原則,包括安全和品質、溝通、夥伴關係和團隊合作、信任和專業。
在人工智慧系統中實現這些特質是一項鼓舞人心的挑戰,研究人員應該以負責任的態度謹慎對待。
AMIE是研究人員對「可能的藝術」的探索,它是一個研究性的系統,用於安全地探索未來的願景,在這個願景中,人工智慧系統可能會更好地與受託為研究人員提供醫療服務的技術嫻熟的臨床醫師的特質保持一致。
它只是早期的實驗性工作,而不是產品,有一些局限性,研究人員認為值得進行嚴格而廣泛的進一步科學研究,以展望未來,讓會話式、移情式和診斷式人工智慧系統變得安全、有用和易用。
限制
研究人員的研究存在一些局限性,在解釋時應保持適當的謹慎。
首先,研究人員的評估技術很可能低估了人類對話在現實世界中的價值,因為研究人員研究中的臨床醫生僅限於使用一個陌生的文字聊天介面,該介面允許大規模的LLM 患者互動,但並不代表通常的臨床實踐。
其次,任何此類研究都必須被視為漫長旅程中的第一步探索。要從研究人員在本研究中評估的LLM研究原型過渡到可供人們和護理人員使用的安全、強大的工具,還需要進行大量的額外研究。
還有許多重要的限制因素需要解決,包括在真實世界限制條件下的實驗表現,以及對健康公平與公正、隱私、穩健性等重要主題的專門探索,以確保技術的安全性和可靠性。
AI或將徹底改變醫學
過去一年中大模型的發展,也讓許多人看到AI在醫學上的應用潛力。
Google便是這個垂類模型領域的典型代表。
Google的Med-PaLM 2根據14項標準進行了測試,結果發現可以達到醫學專家的水平。
還記得去年,一位4歲小男孩得了“怪病”,3年來看了17位醫生,但他們都無法解釋疼痛的具體原因。
直到小男孩母親註冊ChatGPT之後,將病情上傳,才終於得到了正確的診斷結果。
近來,有網友發文表示,在ChatGPT協助下,發現了女友的過敏反應。
凌晨4點,她全身起了大面積的蕁麻疹,到醫院後醫生給她靜脈注射了皮質類固醇,然後就好了。醫生說可能是防腐劑/保鮮劑/食品化學物質引起的,但我們一直都吃得很乾淨,怎麼會這樣呢?
緊接著,他們把過去24小時內吃的所有東西告訴GPT-4,然後讓它對最可能的過敏原進行排名。
GPT-4一開始以為是巧克力裡的榛果的原因,但後來網友突然想起昨天從超市買的肉,便從垃圾桶撿出來把它配料輸給GPT-4…
食材:牛肉(86%)、水、麵包屑(米和玉米粉、澱粉、玉米、鹽、葡萄糖)、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑E223(亞硫酸鹽)。
GPT-4立即將亞硫酸鹽列為可能導致蕁麻疹的最主要過敏原,透過Google搜索,證實它會是蕁麻疹原因之一。
最後發現,這與醫生所說的相符,很可能是食物防腐劑過敏。
另外一位網友也分享了自己的心路歷程,以及利用GPT發現醫師們遺漏的病情連結。
一年前,我的身體在與自己作戰,我的病情惡化速度之快超出了專家們的理解。然後,GPT成為了我的Copilot。
現在,Google推出的AMIE系統再次引領了醫療AI革命。
論文作者表示,「據我們所知,這是第一次為診斷對話和記錄臨床病史而設計的對話式人工智慧系統」。
AI醫學,未來可期。