顛覆生物學AlphaFold成功預測蛋白質結構
谷歌旗下人工智能(AI)公司DeepMind的一個AI網絡朝著解決生物學領域最大的挑戰之一邁出了一大步,這裡的挑戰是:根據一個蛋白質的氨基酸序列來確定它的3D結構。DeepMind的這個程序叫做“AlphaFold”,在名為“蛋白質結構預測關鍵評估”(CASP)的蛋白質結構預測雙年賽上,擊敗了其他百來支團隊。
11月30日,賽事盤點大會(今年改為線上舉辦)開幕,公佈了上述結果。
一個蛋白質的功能由它的3D結構決定。來源:DeepMind
“這非常了不起。”馬里蘭大學計算生物學家John Moult說。Moult在1994年聯合創辦了CASP,為的是提高準確預測蛋白質結構的計算方法。“從某種程度上說,問題解決了。”
能根據氨基酸序列準確預測蛋白質結構,將為生命科學和醫藥領域帶來巨大好處。這將極大地增進我們對細胞基本構成的理解,讓藥物發現加速升級。
AlphaFold在上一屆的CASP上摘得頭魁——2018年,總部位於倫敦的DeepMind首次參賽。而在今年,DeepMind的深度學習網絡更是一騎絕塵,用科學家的話說,其表現之驚人,或預示著生物學的一場革命。
“它改變了整個局面。”CASP的評委、馬克斯·普朗克發育生物學研究所的演化生物學家Andrei Lupas說。AlphaFold幫他發現了困擾他實驗室數十年的一種蛋白質的結構,他認為AlphaFold將改變他的工作方式,以及他要解決的問題。“它將改變醫學,改變研究,改變生物工程,改變所有。”Lupas說。
有些時候,AlphaFold預測的結構與利用X射線晶體學和近幾年的冷凍電鏡(cryo-EM)等“金標準”實驗方法所確定的結構幾乎別無二致。科學家說,目前看來,AlphaFold還不能取代這些費力又昂貴的技術,但它將帶來全新的研究生命的方式。
結構問題
蛋白質是生命的基石,決定著細胞裡發生的一切。蛋白質如何工作以及它做些什麼都是由它的3D結構決定的——“結構即功能”是分子生物學的一條公理。蛋白質似乎無需幫助就能成形,只需要遵循物理定律。
幾十年來,實驗室實驗一直是獲得良好的蛋白質結構的主要手段。蛋白質的首個完整結構是在上世紀50年代確定的,當時使用的技術拿X射線束照射結晶的蛋白質,衍射光轉化為蛋白質的原子坐標。X射線晶體學貢獻了大部分的蛋白質結構,但在過去十年裡,冷凍電鏡成為了許多結構生物學實驗室的首選工具。
科學家一直想知道蛋白質的組分——一連串不同的氨基酸——是如何扭曲和折疊成其最終形狀的。20世紀80、90年代用計算機預測蛋白質結構的早期嘗試並不成功,研究人員說。已發表論文中的誇大其詞在其他科學家用別的蛋白質嘗試時很容易不攻自破。
為了讓這方面的研究更加嚴謹一些,Moult創立了CASP。參賽團隊需要預測的蛋白質的結構已經用實驗方法進行了解析,但尚未公佈。Moult認為這個實驗(他沒有稱其為比賽)擠掉了水分,淨化了整個領域。“你真的在判斷哪些看起來有希望、哪些有用、哪些需要拋棄。”他說。
來源:DeepMind
DeepMind在2018年CASP13上的表現驚艷了領域內的不少科學家,這個領域本來一直是一小群學術團體的堡壘。不過,當時它的方法大體上與其他利用AI的團隊差不多,伊利諾伊大學芝加哥分校的計算生物學家Jinbo Xu說。
AlphaFold的首次迭代將深度學習應用到結構和遺傳數據上,用來預測一個蛋白質的氨基酸對之間的距離。第二步不需要AI,AlphaFold會用這一信息給出這個蛋白質應有結構的“共識”模型,DeepMind項目負責人John Jumper說。
團隊嘗試從這個方法展開,但最終碰壁了。於是他們換了個方向,Jumper說,他們設計了一種AI網絡,其中包含決定蛋白質折疊的額外的物理和幾何約束條件。他們還給它佈置了一個更難的任務:沒有讓它預測氨基酸之間的關係,而是預測一段目標蛋白序列的最終結構。“這讓整個系統複雜了不止一點。”Jumper說。
準確度驚人
每屆CASP會持續好幾個月。比賽中會定期給出目標蛋白質或蛋白質結構域——總共100個左右,讓團隊有幾週的時間來提交他們預測的結構。隨後,一支由獨立科學家組成的團隊利用各類指標對預測結果進行評估,這些指標主要判斷團隊預測的蛋白質與實驗解析的結構有多相似。評審專家並不知道預測是誰做的。
AlphaFold的預測用被稱為“427組”,多個預測達到了驚人的準確性,讓它們脫穎而出,Lupas說。“我猜到了是AlphaFold,大部分人都猜到了。”他說。
AlphaFold的預測水平有高有低,但將近三分之二的預測結果都與實驗結果在質量上不相上下。有些情況下,Moult說,我們甚至不知道AlphaFold的預測和實驗結果之間的差異究竟是預測上的錯誤還是實驗中的偽跡。
AlphaFold的預測結果與利用核磁共振光譜技術解析的實驗結構匹配度較差,但這可能和原始數據轉為模型的方式有關,Moult說。AlphaFold在模擬蛋白複合物/群組的單體結構方面也顯困難,因為它們與其他蛋白質的相互作用會扭曲其形狀。
整體來說,今年參賽團隊的預測結果較上一屆更加準確,但主要進步還是來自AlphaFold,Moult說。預測準確度以100分為滿分,在難度中等的目標蛋白質中,其他團隊的最好成績一般是75分,而AlphaFold能拿到90分左右,Moult說。
約半數團隊在摘要裡概括他們的方法時都提到了“深度學習”,Moult說,說明了AI對該領域的影響力不容小覷。參加CASP14的大部分團隊都有學術背景,但也有微軟和騰訊這樣的團隊。
紐約哥倫比亞大學的計算生物學家Mohammed AlQuraishi也參加了CASP,他迫切想要了解AlphaFold在比賽中的表現細節,他準備在12月1日DeepMind團隊演示他們的方法時,好好研究一下這個系統的工作方式。他說,雖然可能性不大,但也有可能是因為這次的目標蛋白質比平時簡單,才讓他們取得瞭如此好的成績。強烈的直覺告訴AlQuraishi,AlphaFold將是顛覆性的。
“我想可以這麼說,蛋白質結構預測領域將迎來一場顛覆。我懷疑許多人都會離開,因為該領域的核心問題已經解決了。”他說,“這是最高級別的突破,它絕對是我一生中看到的最重要的科學成果之一。”
加快預測蛋白質結構
AlphaFold的預測幫助確定了Lupas實驗室多年來一直想要破解的一種細菌蛋白的結構。Lupas的團隊此前收集了原始的X射線衍射數據,但將這些羅夏(Rorschach)墨跡一樣的圖案變成一種結構,需要一些關於蛋白質形狀的信息。用於獲得這些信息的技巧,以及其他預測工具都失敗了。“427組的模型在半小時裡就給出了我們的結構,而這個結構曾讓我們花了十年時間,試遍了所有方法。”Lupas說。
DeepMind的聯合創始人兼首席執行官Demis Hassabis說,公司計劃讓AlphaFold能為其他科學家所用。(DeepMind之前發表了關於第一版AlphaFold 的豐富細節,足以讓其他科學家重複這個方法。)AlphaFold給出一個預測結構可能要幾天,其中包括對蛋白質不同區域可信度的預測。“我們才開始了解生物學家想要什麼。”Hassabis說,他認為藥物發現和蛋白設計是潛在的應用方向。
2020年初,DeepMind公佈了多個尚無實驗確定的新冠病毒蛋白的結構預測結果。DeepMind對Orf3a蛋白的預測和後來用冷凍電鏡確定的結構非常相似,加州大學伯克利分校的分子神經生物學家Stephen Brohawn說。Brohawn的團隊在6月公佈了這個結構。“他們之前的結果真的讓人印象深刻。”他補充道。
現實影響力
AlphaFold不太可能會讓實驗室關門——比如用實驗方法解析蛋白質結構的Brohawn實驗室。但它或許意味著,想要得到一個好的結構,可能只要相對低質量、易收集的實驗數據就夠了。它的一些應用注定要大放異彩,比如對蛋白質的演化分析,因為現有的海量基因組數據如今有望可靠地轉化為結構了。“這將賦能新一代的分子生物學家,讓他們提出更前沿的問題。”Lupas說,“今後需要的思考越來越多,需要的移液越來越少了。”
“我本來以為我這輩子都看不到這個問題被解決的一天。”曾擔任CASP評審專家、歐洲分子生物學實驗室-歐洲生物信息研究所的結構生物學家Janet Thornton說。她希望這種方法能幫助揭示人類基因組中成千上萬個尚未解析的蛋白質的功能,搞清楚人與人之間為什麼會有不同的致病基因變異。
AlphaFold的表現也是DeepMind的一個轉折點。這家公司因讓AI成為了圍棋等遊戲的高手而聞名,但公司的長遠目標是開發能實現寬泛的、更接近人類智能的程序。化解宏大的科學難題,比如預測蛋白質結構,是它們的AI技術所能實現的最重要的應用之一,Hassabis說。“我真的認為這是我們做過的最厲害的事,我是指在現實影響力方面。”
原文以’It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures為標題發表在2020年11月30日的《自然》新聞上