DeepMind團隊預測多種新冠病毒蛋白結構助力疫苗研發
作為全球範圍內最頂級,也是最受關注的人工智能公司,DeepMind在這次全球爆發的疫情裡做了什麼,一直備受外界關注。當地時間3月5日,DeepMind正式交出答卷,在官方博客中表示,其用AlphaFold生成了六種可能與新冠病毒有關的蛋白質結構預測結果,而且已經開放下載。
這一結果可能對新冠病毒疫苗研發等工作起到推動作用。
AlphaFold預測的一種蛋白結構
說到AlphaFold,可能大家都不陌生,它由曾開發出阿爾法狗的研究團隊研發,是Alpha家族的新成員。在2018年12月一問世就引起科學界關注。它可以僅根據基因代碼預測蛋白質的3D結構。在參加2018年全球蛋白質結構預測競賽(CASP)中,力壓其他97個參賽者,獲得第一,成績還是第二名的8倍還要多。
跳過同行評審,直接公開預測結果
DeepMind表示,為了應對新冠病毒爆發帶來的疫情,科學界對於這個病毒家族的特徵做了大量的基礎研究。最前沿的實驗室開放了病毒基因組數據,這使研究人員能夠快速開發針對病毒的測試療法。其他實驗室也共享了病毒蛋白的確定和預測結構,甚至還共享了流行病學數據。
對於AlphaFold而言,從這個系統問世以來,就一直致力於在沒有相似蛋白質結構可用的情況下,準確預測蛋白質結構。通過不斷改進方法,DeepMind希望提供最有用的預測,也希望此次發布的結果有助於科研界增進對病毒機制的了解,為新冠病毒的治療方案開發提供一個假設生成平台。
通常,DeepMind會在研究成果經過同行評審並正式發表在期刊之後,再進行官方發布。這一次跳過常規步驟,先行公開結構預測結果,DeepMind稱,也是基於疫情的嚴峻形勢和時間敏感性做出的決定。
因此,DeepMind指出,他們的結構預測系統仍在開發中,儘管確信該系統比以前的CASP13系統更準確,但無法確定所提供結構的準確性。
AlphaFold如何預測新冠病毒蛋白質結構
DeepMind團隊介紹,AlphaFold使用神經網絡預測物理特性,這些神經網絡經過訓練可以從蛋白質的基因序列中預測蛋白質的特性,比如氨基酸對之間的距離和,以及連接這些氨基酸的化學鍵之間的角度。接著,AlphaFold調整結構以找到最高效的氨基酸排布。該程序花了兩週時間預測第一個蛋白質結構,但現在只需幾個小時就能將其預測出來。
DeepMind團隊訓練了一個神經網絡來預測蛋白質中每對殘基之間的距離的單獨分佈。然後將這些概率組合成一個分數,以評估所設想的蛋白質結構有多準確。此外還訓練了一個單獨的神經網絡,匯總了所有氨基酸之間的距離和,來估計設想的蛋白質結構與正確答案的接近程度。
DeepMind團隊設計的第一種方法
利用這些評估功能,AlphaFold能夠檢索所有的蛋白質圖景,從而找到與研究設想相匹配的結構。DeepMind團隊設計的第一種方法建立在結構生物學常用的技術上,對於蛋白質結構中的某一片段反復用新的蛋白質片段替換。這樣訓練出來的神經網絡就可以發明新的蛋白質片段,從而不斷提高設想的蛋白質結構的得分。
第二種方法就是通過梯度下降優化得分。這是一種在機器學習中常用的數學技術,通過進行微小而漸進的改進一步步使結構實現高度精確。這套技術應用於對整個蛋白質鏈的預測,而不是用於蛋白質結構組裝之前單獨折疊的碎片,因此從技術上來講降低了整個預測過程的複雜性。
為什麼人工智能可以在生物領域發揮作用
蛋白質是一切生命的物質基礎,預測其3D結構是生物學中的重要挑戰,這將影響人們對疾病理解和藥物發現。
利用梯度下降方法預測結構目標T1008
蛋白質基本的組成單位是氨基酸。整個地球生命系統中僅有的20多種氨基酸,構成了數万至數億種不同的蛋白質。蛋白質的種類很多,性質、功能各異。蛋白質的三維結構取決於它所含氨基酸的數量和類型,結構也決定了蛋白質在體內的作用。比如,構成免疫系統的抗體蛋白質是“Y形”的,類似於一個鉤子。通過鎖定病毒和細菌,抗體蛋白能夠檢測和標記引起疾病的微生物,並進行消滅;而膠原蛋白的形狀像繩索,其在軟骨、韌帶、骨骼和皮膚之間傳遞張力。
此外,蛋白質的折疊包含了很多作用,比如蛋白質四級結構折疊受到大量包括氫鍵、離子鍵、疏水作用等非共價相互作用的影響。因此想要從分子水平上了解蛋白質的作用機制,就需要精確測出蛋白質的三維結構。
在過去60年間發展起來的結構生物學,已經採用了包括X射線晶體學、核磁共振、冷凍電鏡等技術來解析蛋白質結構。但DeepMind團隊認為,這些傳統方法都依賴於大量的實驗和試錯,同時研究每個結構的成本大概需要耗費數万美元。這一耗時又費力的任務,最適合用人工智能解決。加之近幾年基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,人工智能已經具備了通過基因組數據進行深度學習從而做出預測的條件。