中國團隊刷新全球蛋白質結構預測紀錄 大牛彭健創業項目一鳴驚人
AlphaFold2的紀錄,剛剛被刷新了。 最新消息,全球持續蛋白質結構預測競賽CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind旗下AlphaFold2的紀錄被刷新。 HeliXonAI,一個此前名不見經傳的”新面孔”,加冕第一。
同時,在全球結構預測領域主要評價指標lDDT(Local Distance Different Test)中,HeliXonAI跑分也高達83.5分,連續四周排名第一,遠超第二名的70.2分。
HeliXonAI由此一鳴驚人,成為圈內熱議焦點。
但隨著幕後團隊浮出水面,如此成績又被認為情理之中。
因為打造團隊華深智藥,正是生物計算領域大牛彭健的創業公司,也是張亞勤旗下清華AIR智能產業研究院首個公開的孵化專案。
超越AlphaFold2的HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持續蛋白質結構預測競賽,由瑞士生物資訊研究所和巴塞爾大學聯合舉辦,與CASP被認為是結構預測領域最重要的兩項比賽。
但不同於CASP的是,CAMEO的參賽者需要每周預測20個由世界範圍內的結構生物學家最新破解出結構的蛋白質的結構,比賽的得分與排名也會每周即時更新。
該競賽吸引了全球生物計算領域的最頂尖選手。
諸如華盛頓大學蛋白質設計研究所的David Baker教授研發的RoseTTAFold,百度開發的PaFold,和騰訊研發的tFold等模型,都在其中競逐。
而華深智葯的結構預測平臺HeliXonAI,已經連續四周在主要評價指標lDDT(Local Distance Different Test)上達到83.5分,持續排名世界第一。
在CAMEO的結果中,越靠右表示預測的結構越多,越靠上表示預測的結構越准……
而現在,牢牢地佔據最右上角的就是HeliXonAI。
更令人驚喜的是,在上一周CAMEO發佈的17個目標蛋白質上,HeliXonAI的平均lDDT預測精確度,達到了84.0——意味著對AlphaFold2的超越。
之前DeepMind團隊公開的AlphaFold2模型預測精確度,評分在81.9。
並且在另一評價指標TM-score上,也有一致的結果。
HeliXonAI以91.6的評分,同樣超越了AlphaFold2的85.6。
相比RoseTTAFold和PaFold的76分,更是數量級上的超越。
此外,在最新一周的標註為”困難” (hard) 的7個蛋白結構中,HeliXonAI更是進一步拉開差距,在TM-score上比第二名Alphafold2高出6分之多。
總之,不同層面的數據結果都在說明,全球蛋白質結構預測的王座,易主了。
HeliXonAI如何煉成?
眾所周知,蛋白質在理解生命科學與藥物開發中的地位舉足輕重。 為了執行特定功能,蛋白質必須摺疊成對應的結構。
然而,理解蛋白質的三維空間結構一直是生物學中的重大挑戰,已經困擾生物學家 50 多年…
直到 2020 年由DeepMind 團隊開發的 AlphaFold2模型,在第十四屆國際蛋白質結構預測競賽(CASP14)上,幾乎達到冷凍電子顯微鏡等實驗技術的準確度。
一石激起千層浪,引領計算生物領域的標誌性變革。
但AlphaFold2實際也並非完美,例如在同源信號較弱的情況下預測的誤差較大,對於抗體可變區域的預測也精度欠佳。
華深智葯團隊,也是看到了可改進之處,著手開發人工智慧藥物開發平臺——HeliXonAI。
該平臺囊括了包含蛋白質結構預測在內的一整套生命建模演算法體系,將被用於承接包含抗體設計,靶點發現等諸多挑戰性任務。
同時,HeliXonAI的蛋白質結構預測演算法在AlphaFold2的基礎上,提出了諸多改進。
比如數據上利用數據蒸餾引入了更為龐大的無結構氨基酸序列資料庫,並且在模型上設計了新穎的進化調整(Evolutionary Calibration)模組實現了對多比對序列的資訊較正。
又比如對於空間座標的優化,HeliXonAI引入了幾何平滑(Geometric Smoothing)模組,利用幾何深度學習的特性,和近一千層的深度,不斷地將座標優化到正確位置上。
這2大全新的模組的加入,能夠反覆運算式地修復同源序列對比中的誤差並相應地對所有原子幾何位置做出對應的調整,這樣就能更為有效地解決同源信號弱的問題,並在原子級別的細節上做出更精準的預測。
最終,在8塊A100顯卡上,經過連續接近3個多月的訓練,HeliXonAI實現了模型預測能力指標上對AlphaFold2的超越。
當然,需要指出的是,如此成果並非只是3個月的衝刺,背後還有華深智葯團隊的多年積累。
華深智藥打造者?
彭健,伊利諾伊大學厄巴納-香檳分校(UIUC)計算機科學系及醫學院終身教授,生物計算領域的知名大牛,機器學習與蛋白質結構和功能預測的頂級科學家。
他在博士期間設計的著名演算法RaptorX以及在UIUC任教期間設計的DeepContact演算法,多次在CASP比賽中獲得領先的成績,並很早就嘗試將深度學習的技術引入這個領域。
彭健也因此在2016年獲得有「諾獎風向標」之稱的斯隆研究獎,並於2020年獲得計算生物領域最高獎奧弗頓獎(Overton Prize)。
此前,奧弗頓獎獲得者包括David Baker, Trey Ideker以及Aviv Regev等計算生物學領軍人物,而彭健教授也是該獎項20年來的唯一華人得主。
今年6月,看到了領域內正在發生的質變,在張亞勤旗下清華大學人工智慧產業研究院孵化之下,正式創辦華深智藥。 很快便完成了千萬美元級天使輪融資。
創辦伊始,華深智葯就明確要打造新一代人工智慧科學計算平臺,並結合自研高通量生物實驗技術,為研發人員提供微觀世界分子計算、類比與設計的智能系統。
彭健明確,在新藥開發領域,特別是大分子藥物開發,華深智藥希望用創新性地使用AI重構藥物開發流程,從而極大程度上提高新藥研發速度和效率。
而HeliXonAI平臺,就是華深智藥第一階段的成果。
並且HeliXonAI平臺的產業應用,也已經開始展現,因為該平臺集成了包含蛋白質交互,蛋白質動態建模,抗體關鍵區域建模,靶點查詢,蛋白質設計等一整套生命建模流程體系……
於是在針對新冠病毒變異株的抗體設計和免疫逃逸位點檢測等任務中,也能發揮作用。
據說,相關成果已經進入產業轉換階段了。