AlphaFold2 爆火背後 人類為什麼要死磕蛋白質
近期在生命科學領域,有一則爆炸性的新聞,DeepMind 的 Al phaFold2 模型,將人類的 98.5% 的蛋白質,全部預測了一遍,並且做成了數據集免費開源,供科研圈的人使用。 開放的數據集不僅包括人類蛋白質組,還有大腸桿菌、果蠅、小鼠等 20 個具有科研常用生物的蛋白質組數據,總計超過 35 萬個蛋白質的結構。
Al phaFold2 模型的目標是為所有具有已知序列的蛋白提供預測結構。 Deepmind 計劃在年底將預測數量增加到 1.3 億個,而這個數量已經達到了人類已知蛋白質總數的一半。
科研圈因為這一新聞都炸鍋了,平時需要花費數月、數年的才能完成的事情,只需要幾天就可以搞定,大家無一不在讚歎這個具有劃時代意義的時刻。 DeepMind 聯合創始人兼 CEO Demis Hassabis 談道:”我認為這是 DeepMind 整個 10 年多生命週期的頂峰。 “對於研究人員來說,豐富的蛋白質結構數據有了,開展下一步的研究就順暢了。
內行人看門道,外行人看熱鬧,對於學術圈人的集體高潮,外行人的內心都有個大大的問號,預測這麼多的蛋白質結構究竟有什麼卵用? 人類為何一直在和蛋白質死磕?
研究蛋白質的意義
回答這個問題之前,不得不提及生命科學領域最重要的中心法則:遺傳資訊在細胞內的生物大分子間轉錄從DNA→RNA→蛋白質。
如何理解呢? 在生物世代繁衍的過程中,生物會把自身攜帶的遺傳物質DNA分子,通過複製傳遞給後代,而在每一代生物從生到死的過程中,這套DNA分子以自身為設計藍圖,指導生產大量的蛋白質分子,執行支援生物生存和活動的全部功能。
中心法則的一端是DNA,一端是蛋白質,DNA可以看做是工廠裡面生產製造的設計圖紙,而蛋白質就是有各種功能的零部件,造出來的蛋白質有的跑去參與體內各種生物化學反應,比如食物的消化有各種酶的參與,有的在血液中(血紅蛋白)積極的運輸養料,有的作為信使在細胞之間傳遞信號,有的作為衛士,參與生物體的免疫大戰, 各種設計組裝出廠的不同蛋白質可以讓遺傳、發育、繁殖、代謝等生命活動正常運行開展。
對蛋白質進行系統深入的研究,能讓我們從更深層次詮釋生命體的構成和運作變化規律,進而全面揭示生命運行、發展的機制,激發生物科學、藥物研發、合成生物學方面的發展。
我們在中學就已經簡單瞭解過蛋白質了。 蛋白質是生物構成的重要基本物質,由各種氨基酸組成,其排列方式和位置的差異使得其種類極其繁多,結構複雜。 每種蛋白質的空間結構和功能都大不相同,也因為蛋白質的空間結構,不同的摺疊方式使得蛋白質具有的活性和生物性能不定,而這個複雜的特性也就註定了研究蛋白質的路徑困難重重。
蛋白質研究的波折之路
蛋白質早在 18 世紀就被法國化學家發現,但是因為技術條件的限制,直到 20 世紀初,科學家才能根據一些技術去深入的研究蛋白質。 因為蛋白質結構的複雜與種類極其繁多,研究了解的過程極其費時費力。
對於早期的生化學家來說,研究蛋白質的困難在於難以獲取大量的純化的蛋白質用於研究,因此早期的研究工作就是在各種純化蛋白質的路上。 後來有生物公司 1950 年在牛胰腺中純化了核糖核酸酶 a,並免費提供給科學家使用,科學家的大量試驗逐漸打開。
1949 年,英國生化學家桑格用 8 年的時間測試出了胰島素(蛋白質)的 51 個氨基酸的排列順序,驗證了蛋白質是由氨基酸所形成的線性多聚體。 因這一研究桑格被授予 1958 年諾貝爾化學獎。 人們運用桑格的方法對許多別的蛋白質迅速進行了測序,桑格的研究為 1965 年第一次人工合成胰島素鋪平了道路。
人類第一次知悉蛋白質分子結構是在 1959 年,英國科學家 Max Perutz 利用 X 射線衍射的方法,根據射線被散射的角度推測電子的位置解析了肌紅蛋白分子的三維結構,自此之後,X 射線衍射成為解析高解析度蛋白質結構最有力的工具。 除了 X 射線衍射之外,後期科學家們常用的研究工具還有核磁共振與冷凍電子顯微鏡技術。
雖然有設備輔助研究,但是現實測試技術的局限,施行起來成本過高,按照傳統的實驗步驟,從基因序列到相應的蛋白質結構測定之間還要經過基因表達、蛋白質的提取和純化、結晶、X 射線衍射分析等步驟。 由於蛋白質結構和性質的多樣性,這些步驟大多沒有固定的規律可循。
歷史上有科學家耗費幾十年時間才能得到一個清晰的蛋白質三維結構,蛋白質三維結構的測定成了生物學領域非常困難的研究。 至今為止沒有 AI 技術的協助,三維結構被看清的量也僅僅只有 17 萬個,這跟蛋白質的總量相比差距大的跟九牛一毛似的。
對於蛋白質的結構來說,就算我們看得清測得出它的形態,但是關於其摺疊的方向在三維空間中有 10^300 種方式,為何就選擇摺疊為現在的狀態,這個過程和選擇的路徑沒法解析。 因為研究的方法與內容都極其困難,所以研究蛋白質的結構以及定性就真的只有死磕這一條路了。 半個多世紀以來,研究蛋白質結構的相關工作只要有新的發現就會喜提諾貝爾獎,至今為止僅僅蛋白質領域已經拿過 20 多項諾貝爾獎。
也有一批科學家跳出肉眼觀測的技術思路困境,另闢蹊徑,繞開費事費錢的傳統技術的試驗步驟,從蛋白質的氨基酸序列直接進行計算預測它們的三維結構。
站在 AI 巨人肩膀上研發
實現從氨基酸預測蛋白質結構的大前提就是計算機技術的發展。 1998 年,華盛頓大學的 David Baker 教授開發了一套名為”Rosetta”(羅塞塔石碑)的計算機程序來預測蛋白質結構。 但是因為算力的有限,不能暴力地窮舉,因此在早期的預測中,主要用來處理氨基酸數量很小、排列比較規則的蛋白質。 對於複雜的蛋白質也只能望洋興歎了。
為了獲得對蛋白質結構預測技術水準的客觀評估,由馬里蘭大學的 John Moult 領導的一組科學家在 1994 年創立了 CASP(結構預測的關鍵評估),預測者可以在一個雙盲框架內評估他們的方法,以促進研究、監測進展,並建立蛋白質結構預測的最新水準。
得益於卷積神經網路的發展,Deepmind 的研究在第十四屆 CASP 比賽中大放異彩,團隊使用基於注意力機制的神經網路,依靠端到端的優化整體構建結構,內置了大量的序列、結構和宏基因組等多重比較資訊,其預測的 GDT-TS 中值達到了 92.4 分,遠遠高於第二名。 這是個什麼水準呢? 據悉,GDT-TS 的得分在 70 分左右,說明其結果具有準確的全域和局部拓撲結構的模型。 超過80分,結構細節的建模越來越正確,超過95分,模型就像根據實驗數據建立的模型一樣準確。
人工智慧技術作為預測蛋白質結構的輔助手段,通過暴力的學習窮舉,將科學家本來需要幾年幾十年預測的時間縮短為幾日,並且對於簡單的蛋白質分子來說結構的預測已經非常精準,而這樣的結局就會讓科學家們轉身投入到深度理解蛋白質本身的機理的研究中。
縱觀科學史,每次科學家在所在領域內取得重大的進步,都離不開當時技術的支援。 無論是在蛋白質提純的困難年代,還是觀察蛋白質的冷電鏡技術時代,科學家研究的工具都依賴於當時的最高科技水準。 在 AI 時代,因為算力和演算法模型的極大提升,我們見證了蛋白質結構預測的歷史時刻。
AlphaFold2 的資料庫現已開源並且還在不斷地增加新蛋白質結構預測,這也成為了科學家進行蛋白質研究的寶藏資料庫。 不過算出結構也只是生物科學領域的初步階段,指明瞭方向後續的進展還得需要試驗與頭腦的風暴。 對於沒有在已有蛋白質結構數據集訓練的其他蛋白質結構,其研究仍然是謎一般的存在,這也給科學家們留下了很大的研究空間。
不過AlphaFold2這樣的高精度模型,總的來說還是極大地推動科學家的研究與發展,拓展了對蛋白質進行功能分析、以及下游應用的範圍,科學家們得以在各個領域展開開拓性的研究,比如一些癌症、病毒類感染的疾病研究,抗生素、靶向葯的開發,研發新效率的酶等為健康與環保的層面做出貢獻。
站在神經網路與深度學習的技術巨人的肩膀上,生命科學領域的發展已經有了質的飛躍,AI 對於蛋白質的預測也不再依賴人類的先驗知識去做結構預測,相比幾年前引起轟動的 AlphaGo,AlphaFold 也讓深度學習與神經網路好好秀了把肌肉。 科學的創新離不開技術工具的強力輔助,而蛋白質這個能夠影響生命進程的分子,技術為我們打開了研究它的大門,這些海量的蛋白質結構資訊被技術釋放,背後的解讀與分析可能蘊含著生命信息的密碼。 下一個生命科學領域的革命性研究成果,炸出來的是什麼我們無法想像。 在生命科學研究中體驗開盲盒的快樂,也是從來沒有想過的驚喜,期待下一個未來。