科學家們為照亮人工智能的”黑匣子”而創造了一套決策評估方法
由日內瓦大學(UNIGE)、日內瓦大學醫院(HUG)和新加坡國立大學(NUS)的研究人員組成的團隊創造了一種評估人工智能可解釋性技術的突破性方法。其目的是揭開人工智能決策的基礎,並確定潛在的偏見。這一成果為提高人工智能驅動的診斷和預測工具的透明度和可信度鋪平了道路。

這種新方法揭示了所謂的”黑匣子”人工智能算法的神秘工作原理,幫助用戶了解什麼會影響人工智能產生的結果,以及這些結果是否可以信任。這在對人類健康和福祉有重大影響的情況下尤其重要,例如在醫療應用中使用人工智能。
這項研究在即將出台的歐盟人工智能法案的背景下具有特別的意義,該法案旨在規範歐盟內部人工智能的發展和使用。這些研究結果最近發表在《自然-機器智能》雜誌上。
時間序列數據–代表信息隨時間的演變無處不在:例如在醫學上,用心電圖記錄心臟活動;在地震研究中;跟踪天氣模式;或在經濟學上監測金融市場。這些數據可以通過人工智能技術進行建模,以建立診斷或預測工具。

人工智能的進步,特別是深度學習–包括使用這些非常大量的數據訓練機器,目的是解釋它並學習有用的模式為越來越準確的診斷和預測工具開闢了道路。然而,由於沒有深入了解人工智能算法的工作方式或影響其結果的因素,人工智能技術的”黑匣子”性質提出了關於可信度的重要問題。
“這些算法的工作方式至少可以說是不透明的,”共同指導這項工作的UNIGE醫學院放射學和醫學信息學系主任兼HUG醫學信息科學部主任Christian Lovis教授說。”當然,賭注,特別是經濟上的賭注是非常高的。但是,如果不了解機器的推理基礎,我們怎麼能相信它?這些問題是至關重要的,特別是在醫學等部門,人工智能驅動的決策可以影響人們的健康甚至生命;在金融領域,它們可以導致巨大的資本損失。”
可解釋性方法旨在通過破譯人工智能為什麼和如何達成一個特定的決定以及其背後的原因來回答這些問題。”知道在特定情況下哪些因素使天平傾向於支持或反對一個解決方案,從而允許一些透明度,增加對它們的信任,”新加坡國立大學設計與工程學院MathEXLab主任Gianmarco Mengaldo助理教授說,他共同指導了這項工作。
“然而,目前在實際應用和工業工作流程中廣泛使用的可解釋性方法在應用於同一任務時提供了明顯不同的結果。這就提出了一個重要的問題:既然應該有一個唯一的、正確的答案,那麼什麼可解釋性方法是正確的?因此,對可解釋性方法的評價變得和可解釋性本身一樣重要”。

區分重要的和不重要的
辨別數據在開發可解釋性人工智能技術方面至關重要。例如,當人工智能分析圖像時,它專注於一些特徵屬性。
洛維斯教授實驗室的博士生和該研究的第一作者Hugues Turbé解釋說: ”例如,人工智能可以區分狗的圖像和貓的圖像。同樣的原則適用於分析時間序列:機器需要能夠選擇一些元素–例如比其他元素更明顯的峰值–來作為其推理的基礎。對於心電圖信號,這意味著調和來自不同電極的信號,以評估可能的不協調,這將是特定心臟疾病的標誌。”
在所有可用於特定目的的方法中選擇一種可解釋性方法並不容易。不同的人工智能可解釋性方法往往產生非常不同的結果,即使是應用於相同的數據集和任務。為了應對這一挑戰,研究人員開發了兩種新的評估方法,以幫助了解人工智能如何做出決定:一種用於識別信號中最相關的部分,另一種用於評估它們對最終預測的相對重要性。為了評估可解釋性,他們隱藏了一部分數據以驗證它是否與人工智能的決策有關。
然而,這種方法有時會在結果中造成錯誤。為了糾正這一點,他們在一個包括隱藏數據的增強型數據集上訓練人工智能,這有助於保持數據的平衡和準確。然後,該團隊創建了兩種方法來衡量可解釋性方法的工作情況,顯示人工智能是否使用正確的數據進行決策,以及所有數據是否被公平考慮。”總的來說,我們的方法旨在評估將在其操作領域內實際使用的模型,從而確保其可靠性,”Hugues Turbé解釋說。
為了進一步研究,該團隊已經開發了一個合成數據集,他們已經向科學界提供了該數據集,以輕鬆評估任何旨在解釋時間序列的新人工智能。
在醫學應用的未來
展望未來,該團隊現在計劃在臨床環境中測試他們的方法,那裡對人工智能的憂慮仍然很普遍。Mina Bjelogrlic博士解釋說,他是Lovis教授部門的機器學習團隊的負責人,也是這項研究的第二作者,”建立對人工智能評估的信心是在臨床環境中採用它們的關鍵步驟。我們的研究側重於對基於時間序列的AI的評估,但同樣的方法可以應用於基於醫學中使用的其他模式的AI,如圖像或文本。”