AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人
AI在生物學領域再次立功了。 今天,Science封面刊登了AI在預測 RNA分子結構上的重大進展。 來自斯坦福大學的研究團隊,使用一種叫做 ARES的幾何深度學習,在預測RNA三級結構上達到了前所未有的準確度。
曉查 明敏 發自 凹非寺
量子位 報導
一個月前,AlphaFold 2預測人類98.5%的蛋白質,驚豔了全世界。
但是與蛋白質相比,同樣是生物分子的RNA,人類對它的研究主要還停留在二級結構上,對三級結構知之甚少。
加州大學歐文分校的藥物學家Robert Spitale說,我們對大部分RNA結構幾乎一無所知。
一無所知到什麼程度呢?
人類基因轉錄為RNA的數量是蛋白質數量的30倍。 迄今為止實驗已經確定了數千種蛋白質的三級結構,而人類測定三級結構的RNA不到蛋白質的1%,大約只有幾十種。
現在ARES已經預測了1500種RNA分子結構,從過去的將精度提高了4Å左右(1Å等於0.1納米),平均誤差為12Å。 ,當相比之前的方法有了顯著提升。
雖然和AlphaFold 2預測35種蛋白質相去甚遠,也達不到原子級精度(大約1Å),但這足以稱為一項開創性研究。
因為斯坦福大學的科學家們的訓練集只有18個結構數據,少得可憐,取得如此大幅的提升實屬不易。
ARES的出現,讓AI預測RNA三級結構的細節成為可能。
論文的第一作者、斯坦福大學博士Raphael Townshend說:”結構生物學是對分子形狀的研究,在生物學中有一句名言,即結構決定功能。 ”
因此,這項研究有助於科學家們去發現RNA的生物學功能,併為發現新型RNA靶向藥物鋪平道路。
為何要研究RNA
為什麼要研究RNA呢?
這與它在整個生命活動中發揮的重要作用離不開關係。
在生物體內,RNA具有十分重要的細胞功能,包括合成蛋白質、催化反應、調節基因表達、調節先天免疫和感知小分子等。
一方面,RNA是遺傳信息表達的重要一環。
只有通過RNA的轉錄、翻譯,DNA中的資訊才能在蛋白質中表達。
△ RNA轉錄
另一方面,RNA還能調節一些重要生命活動。
核糖RNA可以催化肽鏈的生成,為轉移RNA提供結合位點,參與核糖體大小亞單位的結合、校正閱讀等等功能。
而且,參與遺傳信息表達的RNA隻占RNA總量的20%不到,這意味著有大部分遺傳資訊都還沒有被表達出來。
還有一些病毒是以RNA作為遺傳信息的載體,比如引起新冠肺炎的SARS-CoV-2,就是一種RNA病毒。
因此,研究RNA是探索生命奧秘的必經之路。
除了研究層面,在實際應用上RNA能發揮的作用也越來越多。
依據致病基因的序列資訊,科學家開發出了RNA藥物、RNA疫苗。
它們可以從基因層面就發揮作用,靶向抑制致病蛋白的表達,在醫學領域具有非常廣泛的應用前景。
RNA研究難點在哪
結構生物學有一個信條,即結構決定功能,RNA也不例外。
在知道RNA對生命活動發揮如此大作用后,科學家首先要做的,就是探究RNA的結構。
這也是RNA研究的一大難點。
不同於DNA穩定的雙鏈結構,RNA絕大多數情況下都以單鏈形式存在。
但是單鏈RNA可以通過摺疊形成雙鏈結構,再摺疊形成三級結構。
而且RNA的糖環上有3個自由烴基,而DNA由於去氧只有兩個,所以RNA的化學性質也更加活潑,也就是更容易發生反應。
此外,RNA還更容易被自己的分解酶降解。
這些原因使得RNA在實驗過程中操作難度也更高。
事實上,到目前為止人類已知的RNA結構只有幾十種。 既然實驗難以測定,所以科學家開始把目光放在了AI預測RNA結構上。
和AlphaFold 2的不同
近來深度學習技術的重大進展,往往都需要大量數據來進行訓練。
但是可以給ARES預測的RNA結構只有18種,這些數據顯然不足以使用傳統方法。
斯坦福的科學家們想到了幾何深度學習,開發了ARES(Atomic Rotationally Equivariant Scorer)。
顧名思義,這種方法並非直接針對RNA的特殊情況,而是細化到分子中的原子,參數只給出原子座標和元素類型。
ARES被輸入一小組已知RNA的真實結構,以及這些RNA的大量替代(不正確)結構。
在這個過程中,ARES瞭解每個原子的功能、幾何排列以及這些元素相互之間彼此定位。 神經網路中逐漸從原子級小尺度學習到分子大尺度的特徵。
就這樣,ARES一開始並不瞭解RNA,隨著訓練過程的進行,它學會了RNA的鹼基配對模式、RNA螺旋的最佳幾何形狀。
接下來還有個問題,人類已知RNA種類太少,如何去評估ARES的預測未知RNA能力呢?
斯坦福大學的研究人員編製了一個基準數據集,包含七年來在結構預測競賽RNA-Puzzles中獲勝的作品。
根據RNA-Puzzles的規則,當科學家通過實驗發現新的RNA結構時,他們不會公開細節,直到RNA-Puzzles參與者提交了他們的預測結果,然後將二者的結果進行對比。
經過測試集的檢驗,ARES對4種RNA結構的預測全都達到了最高準確度。
接下來,科學家使用採樣軟體生成了至少1500個RNA結構模型。 然後,他們用ARES和其他三種軟體對模型進行預測。
當使用ARES時,有62%結果接近原生RNA模型(平均誤差<2Å),而
Rosetta、RASP和3dRNAscore分別只有43%、33%和5%的結果接近。
在ARES生成的10個最好模型中包括至少一個接近原生模型的有81%,而Rosetta、RASP和3dRNAscore分別只有48%、48%和33%。
雖然ARES還沒有達到能精確預測靶點、輔助藥物研發的精度,但研究人員說,他們的演算法還有進步的空間
未來,他們計劃輸入除原子座標和元素類型之外的更多資訊,增加信息或許能進一步提高ARES的性能。
通過與低溫電子顯微鏡等實驗數據結合,ARES也可能得到進一步改進。
另外,本文的第一作者Raphael Townshend已經創立了一家生物學AI公司Atomic AI,使用AI技術設計藥物分子。
Townshend剛剛在個人Twitter上發佈了招聘資訊,看來他是準備AI藥物領域大展拳腳了。