加速新藥的開發:MIT的人工智能係統可快速預測蛋白質的附著方式
抗體是由免疫系統產生的小型蛋白質,可以附著在病毒的特定部分以中和它。隨著科學家們繼續與SARS-CoV-2(引起COVID-19的病毒)作鬥爭,一種可能的“武器”是一種合成抗體,它能與病毒的刺突蛋白結合,防止病毒進入人體細胞。為了開發出一種成功的合成抗體,研究人員必須準確了解這種結合將如何發生。蛋白質具有包含許多褶皺的塊狀三維結構,可以以數百萬種組合粘在一起,因此在幾乎無數的候選者中找到正確的蛋白質複合物是非常耗時的。
為了簡化這一過程,麻省理工學院的研究人員創建了一個機器學習模型,可以直接預測兩個蛋白質結合在一起時將形成的複合物。他們的技術比最先進的軟件方法快80到500倍,並且經常預測的蛋白質結構更接近於實驗觀察到的實際結構。
這項技術可以幫助科學家更好地理解一些涉及蛋白質相互作用的生物過程,如DNA複製和修復;它還可以加快開發新藥的進程。
“深度學習非常善於捕捉不同蛋白質之間的相互作用,否則化學家或生物學家很難通過實驗寫出來。其中一些相互作用非常複雜,而人們還沒有找到很好的方法來表達它們。”麻省理工學院計算機科學與人工智能實驗室(CSAIL)的博士後、該論文的共同第一作者Octavian-Eugen Ganea說:“這種深度學習模型可以從數據中學習這些類型的相互作用。”
Ganea的共同第一作者是蘇黎世聯邦理工學院的研究生Xinyuan Huang。麻省理工學院的共同作者包括Regina Barzilay,CSAIL的工程學院人工智能和健康傑出教授,以及Tommi Jaakkola,CSAIL的Thomas Siebel電子工程教授和數據、系統和社會研究所的成員。該研究將在學習表徵國際會議上發表。
研究人員開發的模型被稱為Equidock,專注於剛體對接–當兩個蛋白質通過在三維空間中的旋轉或平移而附著時,就會出現這種情況,但它們的形狀不會被擠壓或彎曲。該模型採用兩種蛋白質的三維結構,並將這些結構轉換為可由神經網絡處理的三維圖形。蛋白質是由氨基酸鏈形成的,其中每個氨基酸都由圖中的一個節點表示。
研究人員在模型中加入了幾何知識,因此它了解如果物體在三維空間中旋轉或平移,它們會如何變化。該模型還內置了數學知識,確保蛋白質總是以相同的方式附著,無論它們在三維空間中存在於何處。這就是蛋白質在人體內的對接方式。
利用這些信息,機器學習系統確定了兩種蛋白質中最有可能相互作用並形成化學反應的原子,稱為結合袋點。然後它利用這些點將兩種蛋白質放在一起形成一個複合體。
“如果我們能從蛋白質中了解哪些個別部分可能是這些結合袋點,那麼這將捕捉到我們將這兩種蛋白質放在一起所需的所有信息。假設我們能找到這兩組點,那麼我們就可以找出如何旋轉和翻譯蛋白質,使一組與另一組相匹配,”Ganea解釋說。
建立這個模型的最大挑戰之一是克服缺乏訓練數據的問題。Ganea說,由於蛋白質的實驗性三維數據太少,將幾何知識納入Equidock尤為重要。如果沒有這些幾何約束,該模型可能會在數據集中發現錯誤的關聯性。
在模型被“訓練”出來後,研究人員將其與四種軟件方法進行了比較。Equidock只需一到五秒就能預測出最終的蛋白質複合物。所有的基線都需要更長的時間,從10分鐘到一個小時或更長時間。
在質量衡量方面,即計算預測的蛋白質複合物與實際的蛋白質複合物的匹配程度,Equidock經常與基線相當,但有時表現得比它們差。
“我們仍然落後於其中一條基線。我們的方法仍然可以改進,它仍然可以是有用的。它可以用於一個非常大的虛擬篩選,我們想了解成千上萬的蛋白質如何相互作用並形成複合體。”Ganea說:“我們的方法可以用來非常快速地生成一組最初的候選人,然後可以用一些更準確但更慢的傳統方法對這些候選人進行微調。”
除了將這種方法用於傳統模型外,該團隊還希望將特定的原子相互作用納入Equidock,以便它能做出更準確的預測。例如,有時蛋白質中的原子會通過涉及水分子的疏水相互作用而附著。
Ganea說,他們的技術也可以應用於類似藥物的小分子的開發。這些分子以特定的方式與蛋白質表面結合,因此快速確定這種附著是如何發生的可以縮短藥物開發的時間。
在未來,他們計劃加強Equidock,使其能夠為靈活的蛋白質對接做出預測。那裡最大的障礙是缺乏訓練數據,所以Ganea和他的同事們正在努力生成他們可以用來改進模型的合成數據。