高中生在生物信息學挑戰中揭示了AlphaFold人工智能的局限性
Skoltech生物公司的科學家在預測單一突變對蛋白質穩定性的影響方面對AlphaFold進行了測試,該人工智能程序的預測與實驗結果相矛盾,駁斥了它掌握了終極蛋白質物理學的說法。
斯科爾技術公司為高中生舉辦的生物信息學訓練營變成了人類和人工智能在科學領域持續較量的最新篇章的場所。突破性的人工智能程序AlphaFold在早些時候解決了一個有50年曆史的結構性生物信息學的關鍵問題後,被證明不適用於該領域的研究人員所面臨的另一個挑戰。PLOS One的一項研究報告了這一發現,其作者駁斥了一些AlphaFold愛好者的說法,即DeepMind的人工智能已經掌握了終極蛋白質物理學,是結構生物信息學的終點。
結構生物信息學是一個科學分支,探索蛋白質、RNA、DNA的結構以及它們與其他分子的相互作用。這些發現為藥物發現和創造具有激動人心的特性的蛋白質提供了基礎,例如在自然界中未見的反應的催化劑。
歷史上,結構生物信息學的核心問題是預測蛋白質結構。也就是說,給定一個組成蛋白質的任意氨基酸序列,你如何可靠地計算出該蛋白質在體內將呈現何種三維形狀–以及它將如何發揮作用。
2021年斯科爾技術在線舉辦的分子和理論生物學學院Playing With AlphaFold2項目的海報。資料來源:Dmitry Ivankov/Skoltech
50年後,這個問題被AlfaFold解決了,這是一個由Google DeepMind創建的人工智能程序,其前身早先在國際象棋、圍棋和視頻遊戲《星際爭霸II》中取得了超越人類的表現,一時間成為頭條新聞。
這一里程碑式的成就導致人們猜測,神經網絡必須以某種方式內化了蛋白質的基本物理學,並且應該超越它所設計的任務。一些人,甚至是結構生物信息學界的人,期望人工智能將很快給出該學科剩餘問題的明確答案,並將其歸入科學史。
“我們決定解決這個問題,將AlphaFold用於結構生物信息學的另一項核心任務:預測單一突變對蛋白質穩定性的影響。這意味著選擇了某種已知的蛋白質,並準確地引入了一個突變,即可能的最小的變化。想知道所產生的突變體是更穩定還是更不穩定,以及穩定到什麼程度。AlphaFold顯然無法做到這一點,它的預測與已知的實驗結果相矛盾就是證明。”該研究的主要研究者,Skoltech Bio公司的助理教授Dmitry Ivankov評論道。
當被問及參加該項目的高中生的作用時,該研究人員說,他們參與了突變數據的處理,編寫處理預測結果的腳本,將AlphaFold指定的結構可視化,以及基本上是在愚弄該人工智能的在線版本。
Ivankov強調,AlphaFold的創造者實際上從未聲稱該人工智能除了根據氨基酸序列預測蛋白質結構外,還適用於其他任務。但一些機器學習愛好者很快就預言了結構生物信息學的終結。所以我們認為這是一個好主意,去檢查一下,我們現在知道它不能預測單個突變的效果。”
在實踐層面上,預測單個突變如何影響蛋白質的穩定性對於篩選許多可能的突變以確定哪些突變可能是有用的。例如,如果你想讓一種用於洗衣粉的蛋白質添加劑對更高的溫度有抵抗力,這樣它就可以在更熱的水中分解脂肪、澱粉、纖維或其他蛋白質。另外,已知的甜味蛋白質有朝一日可以用來代替糖,只要它們能經受住一杯咖啡或茶的熱量。
在更基本的層面上,該研究的結果表明,今天的人工智能並不是萬能的,雖然它可能在解決一個問題上取得了巨大的成功,但其他問題仍然存在,包括結構生物信息學中的十幾個主要挑戰。其中包括預測由蛋白質和小分子或DNA或RNA組成的複合物的結構,確定突變如何影響蛋白質與其他分子的結合能量,以及設計具有氨基酸序列的蛋白質,賦予它們所需的屬性,例如催化其他不可能的反應的能力,作為一個微小的”分子工廠”的元素。
除了提醒人們,即使在AlphaFold之後,他們領域的科學家也有一兩件事情要做,PLOS One上的研究報告的作者審查了人工智能程序的成功源於其”學會了物理學”的論點,而不是僅僅將人類已知的全部蛋白質結構內化並巧妙地操縱它們。顯然,情況並非如此,因為了解相關的物理學,從穩定性方面比較兩個非常相似但不完全相同的結構應該是比較容易的,但這正是AlphaFold沒有完成的任務。
這一點得到了之前對人工智能的物理學”知識”所表達的兩個保留意見的支持。首先,AlphaFold預測了一些帶有側基的結構,其懸空的方式表明鋅離子將與之結合。然而,該程序的輸入僅限於蛋白質的氨基酸序列,所以”看不見的鋅”出現的唯一原因是人工智能被訓練成與這種離子結合的類似蛋白質結構。如果沒有鋅,預測的側組方向與物理學相悖。第二,AlphaFold可以預測一個單獨的蛋白質結構,看起來有點像螺旋,而且確實是準確的–只要它與另外兩個這樣的鏈交錯在一起。如果沒有它們,預測在物理上是不可靠的。因此,與其說該程序依賴物理學,不如說是簡單地再現了它從一個複合結構中分離出來的形狀。
“有趣的是,這項研究是從一個以分子和理論生物學學院的學員為主角的’遊戲性’項目中發展出來的。我們把它稱為’與AlphaFold的遊戲’。當AlphaFold可以公開訪問的時候,我們的實驗室就把它安裝在Zhores超級計算機上。其中一個遊戲是將已知的突變效果與AlphaFold對原始蛋白和突變蛋白的預測進行比較。這帶來了一項研究,高中生有機會同時體驗超級計算機和先進的人工智能,”該研究的主要作者,Skoltech博士生Marina Pak評論道。