頂級AI認知能力輸給老年人大模型集體翻車
醫學頂刊《英國醫學雜誌》最近發表了一項有趣的研究,研究團隊用評估老年人認知能力和早期癡呆症狀的測試題來考AI,結果,多個頂級AI都表現出類似於人類的輕度認知障礙的症狀。而且,這些AI 模型的早期版本,就像衰老的人類一樣,在測試中的表現更差,甚至出現了「健忘」現象。這個結果引發了研究團隊的深入思考。
撰文| Ren
隨著AI 技術的突飛猛進,其進步幾乎每天都在刷新人們的認知,很多人都在猜想,AI 是否會在不久的將來取代人類醫生?
然而,最近發表在《英國醫學雜誌》(The BMJ)上的一項有趣研究,卻給我們帶來了意想不到的發現:原來,AI 會表現出類似於人類的輕度認知障礙的症狀。
論文截圖| 圖源:The BMJ
這個發現不禁讓人莞爾,同時也引發了人們對AI 能力的深入思考。
在這項由以色列哈達薩醫療中心(Hadassah Medical Center)研究團隊主導的研究中,科學研究人員透過蒙特利爾認知評估量表(MoCA)和替他測試來評估5中常見大語言模型的認知能力,包括OpenAI 的ChatGPT 4 和ChatGPT-4o+、Google的Gemini 1.0 和1.5,以及Anthropic 的Claude 3.5 Sonnet 等。
AI 模型的MoCA 分數| 圖源:論文
蒙特婁認知評估量表通常用於評估老年人的認知能力和早期失智症狀,滿分為30分,26分以上被認為是正常程度。研究團隊給AI 模型的測試指示與人類患者接受測試時完全相同,所有評分都嚴格遵循官方指南,並由一位執業神經科醫生負責評估。
先說結論:在所有測試的AI 模型中,表現最好的是ChatGPT 4o,但也僅僅達到了26 分的及格線。緊接在後的是ChatGPT4 和Claude,都是25 分。最令人意外的是,GoogleGemini 1.0 只得到了16分的低分。
依照評分標準,除了以推理見長GPT 4o,剩下的模型都相當於人類出現了輕度認知障礙時的表現水準。有趣的是,研究也發現這些AI 模型的早期版本(如Gemini 1.0),就像老化的人類一樣,在測試中的表現更差,這個現象引發了研究團隊的深入思考。
AI 模型的測驗成績,它們普遍在視覺空間能力測驗中的表現較差| 圖源:論文
深入分析評估結果發現,大語言模型在不同評估項目上表現出明顯的強項和弱項。在命名、注意力、語言和抽象思維等任務中,它們都表現得很好。但在涉及視覺空間和執行功能的測試中,表現出類似於人類的輕度認知障礙。
例如,在連線測試(需要按順序連接帶圈的數字和字母)和時鐘繪製測試(畫出指定時間的時鐘圖案)這樣的任務中,它們的表現不佳,部分錶現出的錯誤模式甚至與某些類型的認知障礙患者頗為相似。
連線測試和正方體繪製測試,A 和F 是正確答案,B 和G 是人類給出的答案,其餘是AI 模型的答案。 | 圖源:論文
時鐘繪製測試,標註為畫一個時間設定為10點11分的時鐘,A 是人類給出的答案,B 是阿茲海默症患者畫出的答案,其餘是AI 模型的答案,最接近正確答案的是GPT-4 和GPT-4o 給出的G 和H,但兩張圖的指標指向了錯誤的時間。 | 圖源:論文
更有趣的是,Gemini 模型在記憶測驗中也出現了「健忘」現象,在一項名為「延遲回憶任務」中完全無法記住先前給出的五個字的序列。這種現象與人類早期認知障礙患者的表現驚人地相似,可能與AI 模型缺乏類似人類工作記憶的機制有關。
而在進一步的視覺空間測試中,面對Navon 圖形(Navon figure)、偷餅乾圖片(cookie theft scene)和Poppelreuter 圖形(Poppelreuter figure)等測試材料時,AI 模型在整合局部與整體資訊、識別複雜場景中的物體,以及理解情緒線索等方面的表現都不盡人意。
例如,在Navon圖形測驗中,多數模型僅能辨識局部元素,而難以掌握整體結構,這反映出其在抽象思考和資訊整合能力上的不足。
Navon 圖形測試,上半部的大H 和大S 字母都是由對應的小H 和小S 元素構成的,而下半部的大H 和大S 都是由相反的小元素構成的,以此評估視覺感知和注意力的整體處理與局部處理。 | 圖源:論文
另外,在偷餅乾圖片測試(取自BDAE 波士頓診斷性失語症檢查法)中,雖然所有模型都能部分描述出場景中發生的事情,但沒有一個模型提到畫面中的小男孩即將摔倒。在針對人類受試者的實際測試中,這往往是情緒冷漠和失去同理心的象徵,也是額顳葉失智症(FTD)的症狀之一。
偷餅乾圖片測驗| 圖源:論文
不過研究人員也指出,AI 模型雖然難以完成需要用視覺執行去抽象推理的任務,但需要文字分析並抽象推理的任務(例如相似性測驗)則表現得非常完美。
從技術原理角度來看,大語言模型基於複雜的神經網路架構,透過大量資料的學習來模擬人類語言行為,但這種架構在面對需要深度理解和靈活處理的認知任務時,則會暴露出諸多缺陷。
在某種程度上,這種分化現象與我們訓練AI 模型的方式有關。我們目前使用的訓練資料主要集中在語言和符號處理上,而對空間關係的理解和多步驟任務的規劃能力訓練相對不足。
AI 模型處理視覺空間問題的困境,也源自於其對資料的特徵提取和模式辨識方式,尚且無法像人類大腦一樣精準地掌握空間關係和物體特徵。
最後,在經典的斯特魯普實驗(Stroop test)中,只有GPT-4o 在較為複雜的第二階段取得了成功,其他模型都以失敗告終。
這項測試透過顏色名稱和字體顏色的組合來衡量幹擾對受試者反應時間的影響。在第二階段中,測試題目是將一個顏色的名稱以不是它所代表的顏色顯示,例如用藍色油墨顯示文字“紅色”,相對於文字及其顏色一致時,受試者要花較長的時間來辨識文字的顏色,辨識過程也更容易出錯。
在斯特魯普實驗的第二階段,顏色名稱和字體顏色出現了錯配。 | 圖源:論文
值得注意的是,研究也發現大語言模型的「年齡」因素與其認知表現有關聯。這裡的「年齡」並非真正意義上的時間流逝,而是指模型的版本迭代。
以 ChatGPT-4 和 ChatGPT-4o 为例,旧版本的 ChatGPT-4 在 MoCA 测试中的得分略低于新版本,Gemini 1.0 与 Gemini 1.5 之间也存在显著的分数差异,且旧版本得分更低。
這可能暗示隨著模型的更新發展,其認知能力可能會有所提升,但這種變化趨勢和內在機制目前尚不清楚。
這項研究的發現令人深思。自2022 年ChatGPT首次向公眾開放使用以來,AI模型在醫學領域的表現一直備受關注。
有許多早期研究顯示,AI模型在多個專業醫學考試中的表現甚至超越了人類醫生,包括歐洲核心心臟病學考試(EECC)、以色列住院醫師考試、土耳其胸腔外科理論考試,以及德國婦產科考試等。甚至連神經科醫生的專業考試,AI模型也展現了超越人類的能力,這讓許多專科醫生都感到焦慮。
然而,最新研究所揭示的AI模型認知缺陷,卻讓我們看到了它的現實限制。醫療不僅是一門技術,更是一門需要人文關懷和同理心的藝術,醫療實踐的方式方法深植於人類的經驗和同理能力,而不僅僅是一系列冷冰冰的技術操作。
即使隨著技術的進步,AI模型的某些根本性限制可能仍會持續存在。例如,AI在視覺抽象能力方面的不足,這對於臨床評估過程中與患者互動至關重要。正如研究團隊所說:“不僅神經科醫生在短期內不太可能被AI取代,相反,他們可能很快就要面對一種新型’病人’——表現出認知障礙的AI模型。”
這項研究成果也對AI模型在醫學領域的應用敲響了警鐘。當面對可能存在認知缺陷的AI系統時,患者難免會心生疑慮,尤其是在涉及複雜病情診斷和治療決策的關鍵醫療場景中,患者更傾向於依賴人類醫生的經驗和判斷,將AI視為輔助工具而非決策者。
同時,從診斷準確性角度而言,AI模型在視覺空間處理和抽象推理上的不足,可能會導致其對醫學影像、臨床數據的解讀出現偏差,進而引發誤診或延遲治療的風險。
不過,研究人員也承認,人類大腦和AI模型之間存在著本質差異,而這種對比研究仍有其限制。此外,將專為人類設計的認知測試應用於AI,其合理性和準確性也有待商榷,或許我們需要開發更適合評估AI系統的新方法。但不可否認的是,AI模型在視覺抽象化和執行功能方面普遍表現不佳。
理解AI模型的認知能力不足對於制定負責任的AI發展策略至關重要。我們需要在推動技術進步的同時,保持對AI能力的清醒認識,建構合理的期望。
展望未來,提升AI模型的同理能力和情境理解能力可能會成為未來研究和發展的重點。與其說AI會完全取代人類醫生或其他職業,不如說未來更可能是人類智慧和AI優勢互補的新格局。
畢竟,在一個連AI都會表現出「認知障礙」的時代,人類的獨特之處值得獲得更多的肯定。在擁抱科技進步的同時,我們也不能忘記人類認知和情感能力的獨特性。