兩大頂級AI算法一起開源Nature、Science齊發Alphafold2相關重磅
今天一波Nature、Science齊發文,可把學術圈的嗑鹽人們高興壞了。一邊是“AI界年度十大突破”AlphaFold2終於終於開源,登上Nature。另一邊Science又出報導:華盛頓大學竟然還搞出了一個比AlphaFold2更快更輕便的算法,只需要一個英偉達RTX2080 GPU,10分鐘就能算出蛋白質結構!
要知道,當年AlphaFold2橫空出世,那是真·沸騰了學術圈。
不僅GoogleCEO皮猜、馬斯克、李飛飛等大V紛紛點贊,連馬普所的演化生物研究所所長Andrei Lupas都直言:它會改變一切。
結構生物學家Petr Leiman感嘆,我用價值一千萬美元的電鏡努力地解了好幾年,Alphafold2竟然一下就算出來了。
更是有生物學網友表示絕望,感覺專業“前途渺茫”:
而今天這一波Nature、Science神仙打架,再次點燃話題度。
讓學界狂熱的Alphafold2
先說被頂刊爭相報導的Alphafold2,它作為一個AI模型,為何引起各界狂熱?
因為它一出來,就解決了生物學界最棘手的問題之一。這個問題於1972年被克里斯蒂安·安芬森提出,它的驗證曾經困擾科學家50年:
給定一個氨基酸序列,理論上就能預測出蛋白質的3D結構。
蛋白質由氨基酸序列組成,但真正決定蛋白質作用的,是它的3D結構,也就是氨基酸序列的折疊方式。
為了驗證這個理論,科學家們嘗試了各種手段,但在CASP14(蛋白質結構預測比賽)中,準確性也只達到40分左右(滿分100)。
直到去年12月,Alphafold2出現,將這一準確性直接拔高到了92.4/100,和蛋白質真實結構之間只差一個原子的寬度,真正解決了蛋白質折疊的問題。
Alphafold2於當年入選Science年度十大突破,被稱作結構生物學“革命性”的突破、蛋白質研究領域的里程碑。
它的出現,能更好地預判蛋白質與分子結合的概率,從而極大地加速新藥研發的效率。
今天,Alphafold2的開源,又進一步在AI和生物學界激起了一大波浪。
GoogleCEO皮猜很高興:
亦有生物學博士表示:未來已來!
來自UC伯克利AI實驗室的博士Roshan Rao在看過後表示,這份代碼看起來不僅容易使用,而且文檔也非常完善。
現在,是時候藉著這份開源算法,弄清Alphafold2的魔術是怎麼變的了。
AlphaFold2詳細信息公開
研究人員強調,這是一個完全不同於AlphaFold的新模型。
2018年的AlphaFold使用的神經網絡是類似ResNet的殘差卷積網絡,到了AlphaFold2則藉鑑了AI研究中最近新興起的Transformer架構。
Transformer使用注意力機制興起於NLP領域,用於處理一連串的文本序列。
而氨基酸序列正是和文本類似的數據結構,AlphaFold2利用多序列比對,把蛋白質的結構和生物信息整合到了深度學習算法中。
AlphaFold2用初始氨基酸序列與同源序列進行比對,直接預測蛋白質所有重原子的三維坐標。
從模型圖中可以看到,輸入初始氨基酸序列後,蛋白質的基因信息和結構信息會在數據庫中進行比對。
多序列比對的目標是使參與比對的序列中有盡可能多的序列具有相同的鹼基,這樣可以推斷出它們在結構和功能上的相似關係。
比對後的兩組信息會組成一個48block的Evoformer塊,然後得到較為相似的比對序列。
比對序列進一步組合8 blocks的結構模型,從而直接構建出蛋白質的3D結構。
最後兩步過程還會進行3次循環,可以使預測更加準確。
△如何用三維坐標確定結構
還有更快、成本更低的算法?
AlphaFold2首次公佈的時候並沒有透露太多技術細節。
在華盛頓大學,同樣致力於蛋白質領域的David Baker一度陷入失落:如果有人已經解決了你正在研究的問題,但沒有透露他們是如何解決的,你該如何繼續研究?
不過他馬上重整旗鼓,帶領團隊嘗試能不能複現AlphaFold2的成功。
幾個月後,Baker團隊的成果不僅在準確度上和AlphaFold2不相上下,還在計算速度和算力需求上實現了超越。
就在AlphaFold2開源論文登上Nature的同一天,Baker團隊的RoseTTAFold也登上Science。
RoseTTAFold只需要一塊RTX2080顯卡,就能在10分鐘左右計算出400個氨基酸殘基以內的蛋白質結構。
這樣的速度,意味著什麼?
那就是研究蛋白質的科學家不用再排隊申請超算資源了,小型團隊和個人研究者只需要一台普通的個人電腦就能輕鬆展開研究。
RoseTTAFold的秘訣在於採用了3軌注意力機制,分別關注蛋白質的一級結構、二級結構和三級結構。
再通過在三者之間加上多處連接,使整個神經網絡能夠同時學習3個維度層次的信息。
考慮到現在市場上顯卡不太好買,Baker團隊還貼心的搭建了公共服務器,任何人都可以提交蛋白質序列並預測結構。
自服務器建立以來,已經處理了來自全世界研究者提交的幾千個蛋白質序列。
這還沒完,團隊發現如果同時輸入多個氨基酸序列,RoseTTAFold還可以預測出蛋白質複合體的結構模型。
對於多個蛋白質組成的複合體,RoseTTAFold的實驗結果是在24GB顯存的英偉達Titan RTX上計算30分鐘左右。
現在整個網絡是用單個氨基酸序列訓練的,團隊下一步計劃用多序列重新訓練,在蛋白質複合體結構預測上還可能有提升空間。
正如Baker所說:我們的成果可以幫助整個科學界,為生物學研究加速。