人類生物學的大突破 就這樣被AI做到了
多年之後,當人們總結這些年的 AI 浪潮,最具應用價值突破的會是什麼? 不會是 2016 年 AlphaGo 下棋超過人類最強棋手李世石,而會是AlphaFold2準確預測了”蛋白質摺疊”。
2020 年 12 月的「蛋白質結構預測比賽(CASP)」上,DeepMind 的 AlphaFold2 演算法預測取得第一名,達到了實驗解析的精度。 DeepMind 的CEO德米斯·哈薩克比斯(Demis Hassabis) 說:「這是迄今為止 AI 在推動科學上作出的最大貢獻,我覺得這一點不誇張。 “AI 在下棋上超過人類,沒有解決任何應用問題,AlphaFold2 能夠準確預測”蛋白質摺疊”,則是把生物學的進程向前推動了一步。
AlphaFold2 預測出的蛋白質三維結構
“沒有摺疊”的蛋白質,是一條氨基酸鏈,當它摺疊成三維結構,才擁有了功能。 弄清楚蛋白質怎樣摺疊,是生物學研究了 50 多年的難題。 CASP 的比賽規則是,告訴你蛋白質氨基酸的序列,你來預測它會摺疊成什麼結構。
只有通過結構理解功能,很多難題才有可能進一步被解答。 像阿爾茲海默症、老年帕金森等疾病都是由於蛋白質錯誤摺疊導致的。 通過解析癌細胞的蛋白質,研究治療靶點,也是更好治療癌症的希望所在。
在賽后的會議上,面對 AlphaFold2 的得分,一位年近 70 的比賽召集人感歎,「不敢相信,我竟然活了這麼久看到了這個結果。 ”
不久前,DeepMind 團隊在 Nature 上發佈論文闡釋了演算法原理,並將原始程式碼和預測的蛋白質資料庫公開。
演算法開源后,人們看見這項突破背後的奧秘:它沒有太多新思想,而是將已有的思想用演算法落地。 這不是單點創新,而是工程式的綜合性創新。
集前人思想之精華,團隊作戰,多點創新。 把科學家一直在做的事情,完成得前所未有得漂亮,這就是AlphaFold2了不起的地方。
臨門一腳:演算法預測終於媲美實驗解析
計算生物學界一直試圖用演算法來解決「蛋白質摺疊」的預測問題。
蛋白質通常是一串 300 個以上氨基酸次第相連的鏈條。 氨基酸之間通過肽鍵連接,因此,摺疊未發生時,這是一條多肽鏈。 神奇之處,也正是預測「蛋白質摺疊」的難處,氨基酸鏈天生懂得自己存在的”姿勢”——該摺疊成怎樣的三維結構。 這個三維結構,決定了蛋白質功能。
科學家很早就知道,多肽鏈會趨向選擇能量最低的結構,並且能在天文數量級的可能性中快速選擇。 擁有 300 個氨基酸的蛋白質,理論上可以擁有 10 的 300 次方種可能構象。 而摺疊自己,形成三維精準構象,只需要幾微米。
人類怎樣在無數可能性中鎖定一種? 如果通過枚舉計算,即使以最快的速度依次搜索,需要的時間也會超過宇宙年齡。
科學家當然不是無能為力。 隨著實驗方法解析出的蛋白質結構越來越多,科學家建立起已知的蛋白質結構庫,能夠通過同源序列對比、已知蛋白質的拓撲結構範本來進行對比建模計算。
多序列對比示意圖
在實際研究中,經常是演算法和實驗雙管齊下。 比如先用演算法預測出一個大致不那麼準的結構,有個輪廓,再用冷凍電鏡這樣的儀器進行準確的結構解析。
冷凍電鏡是目前最先進的解析蛋白質結構工具。 在新冠疫情期間,西湖大學就用它解析出新冠病毒的受體 ACE2 膜蛋白。 弄清病毒受體結構,也為接下來疫苗研發打下了基礎。
一串氨基酸鏈上的每個珠子不是獨立的,它們之間會互相作用,”珠子”和”珠子”之間的互相影響和微環境,決定了氨基酸鏈如何摺疊。 因此,氨基酸次序、氨基酸殘基之間的距離和殘基間的互相作用,都是進行計算的基礎資訊。
AphaFold2 和之前的演算法一樣,也是利用這些資訊計算來預測。
它的成功還告訴我們:當計算機技術、工程技術、大數據、神經網路等方式應用到生物學領域,將帶來前所未有的成果。 這正是”合成生物學”正在做的事。
合成生物學至今僅有二十年歷史,目前甚至沒有完全劃定研究對象的範圍。 但在研究方法上,合成生物學有共識,就是將工程性技術和傳統生物技術結合。
比如,解析蛋白質結構一直是結構生物學家的研究課題,DeepMind 方法中的工程學思維就是充分挖掘數據,結合不同的分析模組,流程上反覆優化以取得最優解。
令人驚歎的工程創新
人們常常說 AI 的特長在於暴力計算,但 AlphaFold2 是暴力計算和人類聰明才智的結晶。
發表在Nature的論文有19位並列的第一作者,其中有分子動力學、人工智慧、量子化學、自然語言處理、醫療影像等各種專業的科學家。 更令人意外的是,甚至還有一位擁有十年以上管理經驗的資深產品經理。 但是轉念一想,這樣一個彙集多領域知識的複雜專案,有一位項目經理,也是情理之中。
從公佈的演算法而言,AlphaFold2 模型的獨特性在於兩點:引入雙注意力機制、實現端到端模型。 前者是更加有效提取和加工數據,後者是取消了作為過渡的編碼/解碼過程,就減少了資訊的損耗。 這兩個想法本身並非 DeepMind 原創。
注意力機制源於自然語言處理(NLP)模型,其中的關鍵結構是特徵提取器 Transformer,作用是讓模型有選擇地注意關鍵資訊。 在 2020 年 2 月份,Facebook 最早將 Transformer 引入蛋白質序列對比,讓神經網路更好地對蛋白質序列建模。
在AlphaFold2中則使用了兩個 Transformer,因此稱為雙注意力機制。
這兩個 Transformer 負責提取不同的數據,一個在已知的蛋白質庫里進行同源序列對比,也就是用已知的蛋白質結構做參考;另一個關注氨基酸殘基對,也就是微觀上,兩個氨基酸之間會發生怎樣的相互作用。
關鍵在於,這兩個資訊路徑不是彼此獨立的,而是持續交流,這就實現了 1+1>2 的效果。 經過 48 次反覆運算,演演算法最終建立出氨基酸相互作用的模型。
這就反映出整個模型設計的重要思想:資訊在整個神經網路中來回流動。 換句話說,這部分演算法是為了充分在資料庫里榨出資訊。
端到端模型也是一個重要的創新之處。 也就是說,輸入一個蛋白質資訊,就可以輸出三維空間的預測結果,中間沒有其他編碼和解碼環節。
資訊在不同的形式間轉手一次,就會帶來一次損耗。 那麼更直接處理上一環節的數據,計算的結果就更準確。
此前的演算法模型(包括上一版本的 AlphaFold)都會有中間環節,計算完氨基酸之間的距離后,用數據建立能量函數,然後再進行三維結構預測。 整個過程,數據先被函數處理,再變成座標軸資訊。
AlphaFold2 則是直接建立每個氨基酸局部的座標系統,由此計算蛋白質的三維結構。 也就是將第一階段處理的數據直接映射到三維空間。
整個模型還用了許多其它技術來提升預測的準確性,比如創新的Loss Fuction(損失函數),三維模型計算結果的反覆優化(Recycling)…… 所有的技術綜合在一起,才能夠實現如此好的預測效果。
這無疑是一個大型且複雜的工程。 前臺展現出的是計算機技術,但是要完成這些演算法設計,必須要有對生物現象的深刻理解。 比如,在第一個處理信息的階段,兩個 Transformer 如何互相配合,將氨基酸殘基對的微觀資訊整合進整個氨基酸序列的資訊中,在寫演算法時就要對摺疊過程有準確的領悟。
合成生物學帶來的想像
對於合成生物學而言,工程技術不僅僅是方法,更是一種系統性思維。 合成生物學家希望通過「類似於工程師建造橋樑和將人送上月球的方法,理性地設計生物系統。 ”
“工程科學技術不只是工具,也不僅僅是基礎研究成果的應用,而是在基礎研究中可以發揮巨大作用的重要組成部分。” 中國工程院院士,計算機專家李國傑評論 AlphaFold2 突破時說。
科技發展中很重要的一部分是工具的不斷進化。 結構生物學家顏寧在微博說:「在 X-射線晶體學為主要手段的時代,獲得大多數研究對象的結構本身太難了,於是很多研究者把『獲得結構』本身作為了目標,讓外行誤以為結構生物學就是解結構。 ”
蛋白質遵循能量最低原則,從一維結構摺疊成三維結構,並形成功能。
所以預測摺疊,只是理解蛋白質功能的起點。
蛋白質不是一個靜態的結構,在行使功能的過程中,它都會發生精細的構象變化,比如病毒蛋白和受體結合、靶蛋白和小分子藥物結合。 理解結構和功能之間的互動關係,都是對付病毒,研發藥物的關鍵。
比如,冷凍電鏡解析出的新冠病毒的受體 ACE2 膜蛋白,就可以作為疫苗研發的靶點。
有了一個靜態結構,科學家就可以在此基礎上做更多研究。 比如可以從 AlphaFold2 預測的單幀靜態結構出發,來類比蛋白質結構的動態變化。
除此之外,有些蛋白質獨自並不形成穩定的結構,而是和其他蛋白質結合后,才形成結構和相應的功能,這樣更加複雜的結構預測,也是 AI 預測接下來努力的目標之一。
當人們對蛋白質的結構和功能足夠瞭解,甚至可以按需設計想要的蛋白質。 有了這個技術,科學家就可以開發精準治療的靶向葯、節能環保的新材料、或者是有特殊能量轉化功能的催化劑……
“我認為這會真正改變一百年來科學家處理生物學問題的方式。 研究人員不需要再耗費大量的時間和精力在解析蛋白結構上,而是可以專注於功能研究。 “AlphaFold 首席研究員 John Jumper 對外媒說。
新的研究手段和方式正在改變生物學。 2020 年的諾貝爾獎化學獎就頒發給了發明”Crispr”基因編輯技術的兩位科學家,這項技術帶來了一批基因編輯的生物公司,開啟了新的”基因編輯”時代。 或許,人工智慧驅動的生物研究也同樣會開啟新的「蛋白質編輯」時代。