研究人員解釋藥物研究過程中機器學習應用的「黑盒子」性質
人工智慧(AI)的發展日新月異,但其內在工作原理卻往往模糊不清,具有”黑箱”性質,無法看到得出結論的過程。不過,波昂大學的化學資訊學專家於爾根-巴約拉特(Jürgen Bajorath)教授和他的團隊取得了重大突破。他們設計了一種技術,可以揭示製藥研究中使用的某些人工智慧系統的運作機制。
令人驚訝的是,他們的研究結果表明,這些人工智慧模型主要依靠回憶現有數據,而不是學習特定的化學交互作用來預測藥物的有效性。他們的研究成果最近發表在《自然-機器智能》(Nature Machine Intelligence)上。
哪一種藥物分子最有效?研究人員正在瘋狂地尋找有效的活性物質來對抗疾病。這些化合物通常會與蛋白質對接,而蛋白質通常是酵素或受體,它們會觸發一連串特定的生理作用。
在某些情況下,某些分子還能阻止體內的不良反應,如過度的發炎反應。由於現有的化合物種類繁多,乍一看,這項研究無異於大海撈針。因此,藥物發現試圖利用科學模型來預測哪些分子能最好地與相應的目標蛋白對接並強力結合。然後在實驗研究中對這些潛在的候選藥物進行更詳細的調查。
蛋白質配體交互作用圖中邊緣的相對比例–確定不同親和力亞區的六個GNN 預測值。彩色條比較了使用EdgeSHAPer 確定的每個預測的前25 個邊緣中蛋白質、配體和相互作用邊緣的平均比例。圖片來源:A. Mastropietro 與J. Bajorath
隨著人工智慧的發展,藥物發現研究也越來越多地使用機器學習應用。其中,”圖神經網路”(GNN)為此類應用提供了多種機會。例如,它們適用於預測某種分子與目標蛋白質的結合強度。為此,GNN 模型使用表示蛋白質與化合物(配體)之間形成的複合物的圖形進行訓練。
圖一般由代表物件的節點和代表節點間關係的邊組成。在蛋白質配體複合物的圖表示中,邊只連接蛋白質或配體節點,分別表示它們的結構,或連接蛋白質和配體節點,表示特定的蛋白質配體相互作用。
尤爾根-巴約拉特(Jürgen Bajorath)教授說:”GNN 如何得出預測結果,就像一個我們無法窺探的黑盒子。”這位來自波恩大學LIMES 研究所、波恩-亞琛國際資訊技術中心(B-IT) 和波恩拉馬爾機器學習與人工智慧研究所的化學資訊學研究員與羅馬薩皮恩扎大學的同事一起詳細分析了圖神經網路是否真的能學習蛋白質與配體之間的相互作用,從而預測活性物質與目標蛋白質的結合強度。
人工智慧應用如何發揮作用?
研究人員利用專門開發的”EdgeSHAPer”方法和一種概念上不同的比較方法,分析了總共六種不同的圖神經網路架構。這些電腦程式”篩檢”了GNN 是否按照研究人員的意圖和預期,學會了化合物與蛋白質之間最重要的相互作用,從而預測了配體的效力,或者人工智慧是否以其他方式得出了預測結果。
Jürgen Bajorath 教授博士–來自波昂大學LIMES 研究所、波昂-亞琛國際資訊科技中心(B-IT) 以及拉馬爾機器學習與人工智慧研究所。資料來源:波昂大學
研究的第一作者、羅馬薩皮恩扎大學的博士生Andrea Mastropietro 說:”GNN 非常依賴它們所訓練的數據。”
科學家們用從蛋白質配體複合物結構中提取的圖形訓練了六個GNN,這些配體的作用模式和化合物與目標蛋白質的結合強度已透過實驗得知。然後在其他複合物上對訓練有素的GNN 進行測試。隨後的EdgeSHAPer 分析使我們得以了解GNN 是如何產生明顯有希望的預測結果的。
Bajorath 教授解釋說:”如果GNNs 達到了預期的效果,那麼它們就需要學習化合物與目標蛋白質之間的相互作用,並通過優先考慮特定的相互作用來確定預測結果。然而,根據研究小組的分析,這六種GNN 基本上沒有做到這一點。大多數GNN 只了解了一些蛋白質與藥物之間的相互作用,而且主要集中在配體上。為了預測分子與目標蛋白質的結合強度,模型主要’記憶’它們在訓練過程中遇到的化學相似分子及其結合數據,而不管目標蛋白質是什麼。然後,這些學習到的化學相似性基本上決定了預測結果”。
科學家認為,這在很大程度上讓人想起了”聰明的漢斯效應”。這效應指的是一匹會數數的馬。漢斯敲擊蹄子的頻率本應顯示計算的結果。但後來發現,這匹馬根本不會計算,而是根據同伴面部表情和手勢的細微差別推斷出預期結果。
這些發現對藥物發現研究意味著什麼?這位化學資訊學家說:”一般來說,GNN 學習活性物質和蛋白質之間的化學相互作用是站不住腳的。它們的預測在很大程度上被高估了,因為利用化學知識和更簡單的方法就能做出同等品質的預測。不過,這項研究也為人工智慧提供了機會。在接受GNN 檢定的模型中,有兩個模型顯示出一個明顯的趨勢,即當測試化合物的效力增加時,它們會學習到更多的相互作用。」這裡值得仔細研究。也許透過修改表徵和訓練技術,這些GNN 還能朝著理想的方向進一步改進。不過,對於可以根據分子圖學習物理量的假設,一般來說應該要謹慎看待。人工智慧不是黑魔法。”
人工智慧黑暗中的更多曙光
事實上,在他看來,EdgeSHAPer 和其他專門開發的分析工具之前的公開發表,是揭示人工智慧模型黑箱的有希望的方法。他的團隊目前的工作重點是GNN 和新的”化學語言模型”。
“開發解釋複雜模型預測的方法是人工智慧研究的一個重要領域。還有一些針對語言模型等其他網路架構的方法,有助於更好地理解機器學習如何得出結果,」他希望拉馬爾研究所在”可解釋的人工智慧”領域也能很快取得令人興奮的成果。
參考文獻:Andrea Mastropietro、Giuseppe Pasculli 和Jürgen Bajorath 的”預測蛋白質配體親和性的圖神經網路的學習特徵”,2023 年11 月13 日,《自然-機器智能》。
DOI: 10.1038/s42256-023-00756-9
編譯來源:ScitechDaily