生物史最全「證件照」:D eepMind開放35萬種蛋白質結構,超人類知識2倍
今天將成為人類生物學歷史上具有重大意義的一天! 智東西7月23日消息,今日,人工智慧研究實驗室DeepMind與歐洲生物資訊學研究所EMBL-EBI(European Bioinformatics Institute)合作,推出了AlphaFold蛋白質結構資料庫,該資料庫提供了迄今為止人類蛋白質組最完整、最準確的圖像,是人類積累的高精度人類蛋白質結構知識的兩倍多。
智東西
編譯 | 韋世瑋 徐珊
編輯 | 漠影
除了人類蛋白質組(人類基因組表達的所有蛋白質約2萬種)之外,他們還將提供其他20種具有生物學意義的生物蛋白質組的開放訪問,總計超過35萬種蛋白質結構,包括從果蠅到小鼠等動物,以及從大腸桿菌到酵母等細菌。
發佈第一批數據後,DeepMind計劃繼續增加蛋白質庫,幾乎覆蓋所有科學已知的已測序蛋白質,共超過1億種結構,該庫將由EMBL維護。 在EMBL總幹事Edith Heard看來:「這些數據集將改變我們對生命運作方式的理解。 ”
“我認為這是DeepMind整個10年多生命週期的頂峰。” DeepMind聯合創始人兼CEO Demis Hassabis談道,從成立之初,DeepMind就打算將AI方面取得的突破在圍棋、雅達利等遊戲上進行測試,並將其應用於現實世界的問題,以加速科學突破並造福人類。
Demis Hassabis稱,這些數據對科學和商業研究人員來說都將永久免費開放。 “任何人都可以將它用於任何事情,他們只需要歸功於參與引用的人。” 他說。
▲長期以來,人源中介體複合物(Mediator Complex)一直是結構生物學家最具挑戰性的多蛋白系統之一。 (圖源:Nature)
一、AlphaFold預測蛋白質結構,緩解多領域生物研究瓶頸
21世紀是生物的世紀,更是計算機的世紀。
早在去年12月,DeepMind就推出了AlphaFold 2系統,可通過AI軟體對蛋白質結構進行準確預測,該解決方案被認為能解決困擾科學家們50年的蛋白質摺疊(protein folding)問題。
直到上周,DeepMind還發表了相關科學論文和原始程式碼,以解釋如何創建這個高度創新的系統,允許其他人通過AlphaFold來完成相關研究工作。
AlphaFold系統的誕生,證明瞭AI可以在幾分鐘內準確預測蛋白質的3D結構,精確到原子精度。 而AlphaFold蛋白質結構資料庫的開放,也將促進世界各地的科學家們加速對人類蛋白質的研究。
那麼,何為蛋白質摺疊問題?
簡單來說,許多生物過程都是圍繞蛋白質來進行的,而蛋白質是由氨基酸序列組成的大型複雜分子,其真正的作用取決於自身獨特的3D結構,也就是蛋白質中氨基酸序列的摺疊方式。
瞭解蛋白質結構能增進人類對生命組成部分的理解,從而推動科學家們在各個領域的研究。
例如,英國朴茨茅斯大學(CEI)正在利用AlphaFold來設計一種新型酶,以快速分解污染嚴重的一次性塑膠等廢物;美國科羅拉多大學博爾德分校通過AlphaFold預測,來研究抗生素耐藥性的前景;美國加利福尼亞大學三藩市分校則使用AlphaFold來研究新型冠狀病毒的工作原理……
▲AlphaFold預測的蛋白質結構的兩個例子(藍色)與實驗結果(綠色)的比較(圖源:DeepMind)
這些都是科學家們利用科技帶來的大量生物數據資訊,一步步轉換為未來人類的進步。
但科學家們指出,這些資訊轉換到現實世界併產生結果的過程,仍需要大量時間。 “我認為這不會在一年內改變患者的治療方式,但它肯定會對科學界產生巨大影響。” 科羅拉多大學生物化學系教授Marcelo C. Sousa說。
需要注意的是,AlphaFold 軟體生成的是蛋白質結構的預測,而不是實驗確定的模型,這意味著在某些情況下,科學家還需要進一步的工作來驗證結構。
DeepMind對此表示,他們花了許多時間在AlphaFold軟體中構建準確度指標,讓它能對每個預測的可信度進行排名。
不過,蛋白質結構的預測仍對科學研究帶來了巨大説明。 以往科學家們確定蛋白質結構的實驗過程既耗時又昂貴,還要依賴大量反覆試驗,而蛋白質結構預測即便置信度低,也可以為科學家指明正確的研究方向,為他們節省多年的工作。
英國格拉斯哥大學(University of Glasgow)結構生物學教授Helen Walden認為,DeepMind的數據將”顯著緩解研究瓶頸”,但”進行生物化學和生物學評估的費力、耗費資源的工作”將繼續存在,例如藥物功能研究。
Sousa也提到,他曾在工作中使用過AlphaFold的數據,”科學家們能快速地感受到它帶來的影響。 “他說,在他們與DeepMind的合作中,他們有一個包含蛋白質樣本的數據集,但10年來都還沒開發出一個合適的模型,直到DeepMind同意為他們提供一個結構,在15分鐘內就解決了這個問題。
二、蛋白質摺疊難題背後,AlphaFold分析速度已提升16倍
AlphaFold只需15分鐘就能解決的問題,為何困擾了這些科學家10年? 蛋白質摺疊問題究竟難在哪?
如我們前面所說,蛋白質由氨基酸鏈構成,人體中共含有20種不同的氨基酸,任何一個蛋白質都可以由數百個氨基酸組成,且每個氨基酸都有不同的摺疊和扭曲結構。
這些都意味著,哪怕是一個常見的蛋白質分子,它的最終結構都有許多種可能構型。 一個估計是,典型的蛋白質可以以10^300種方式摺疊。 不用數了,就是”1″後面跟著300個”0″的可能性。
不過由於蛋白質的樣本太小,科學家們難以用顯微鏡檢查,不得不使用成本昂貴且複雜的方法來間接確定蛋白質結構,比如核磁共振和X射線晶體學(X-ray crystallography)。
但實際上,簡單地通過氨基酸序列來確定蛋白質結構的構想,在理論上一直是難以實現的。 因此,分析蛋白質結構也成為了人們攻克生物學領域的一大難關。
直到近年來,人們發現可以利用AI的方法來分析蛋白質結構。 借助這些技術,AI系統可以通過在已知蛋白質結構的數據集上進行訓練,並最終利用這些資訊來預測蛋白質結構。
多年來,很多團隊都參與到這項AI研究中,其中DeepMind基於深厚的AI人才庫和大量計算資源基礎,一直走在該領域的前沿。
去年,DeepMind在一項名為CASP的國際蛋白質摺疊比賽中脫穎而出,其AlphaFold軟體對蛋白質結構的預測結果非常準確。 對此,CASP聯合創始人之一的計算生物學家John Moult說:”在某種意義上,蛋白質摺疊的難題已經有了解決方案。 ”
▲DeepMind的AlphaFold軟體顯著提高了計算蛋白質摺疊的準確性(圖源:DeepMind)
自去年CASP競賽以來,AlphaFold系統也實現了升級,現在它分析蛋白質結構的速度已提高了16倍。 “我們可以在幾分鐘內摺疊一個普通蛋白質,多數情況下只要幾秒鐘。 “Hassabis談道。
英國雷丁大學教授Liam McGuffin曾開發出一些蛋白質摺疊軟體,他肯定了AlphaFold的技術,但也指出,AlphaFold的成功主要歸功於科學家們數十年的先前研究和公開數據。
“DeepMind擁有大量研究資源來保持資料庫的更新,他們比任何一個學術團體都更有能力做到這一點。” McGuffin認為,儘管科學家們最終也會走到這一步,但速度會更慢,因為他們沒有足夠的資源。
三、持續推進AI發展,年底資料庫結構將增至1.3億個
儘管DeepMind每年都處於大量虧損的狀態,但這次開放蛋白質結構資料庫是免費的。
實際上,DeepMind歸屬於Google母公司Alphabet,該公司一直在商業醫療保健領域投入大量資源。 還有許多報導稱,DeepMind與Alphabet在研究自主性和商業可行性等問題上存在分歧。
不過Hassabis談道,公司一直在計劃免費提供這些資訊,這樣做是對DeepMind創始精神的體現。 “我們在被收購時與Alphabet達成的協定是,DeepMind主要的研究目的是推進AGI(通用人工智慧)和AI技術的發展,然後利用它們來攻克科學領域的難題。” 他說。
他認為,Alphabet有許多部門都專注於盈利,但DeepMind對研究的關注能夠”為科學界帶來各種各樣的好處,包括聲望和信譽,從而通過多種方法實現價值。 ”
Hassabis還強調,雖然DeepMind的主要研究目標是一些基礎領域,但其技術已廣泛應用於Google的其他業務中。 “幾乎你使用的任何Google產品,其中一部分技術都有我們的參與。” 他透露。
與此同時,Hassabis預測AlphaFold將成為未來的標誌,因為它展示了AI在處理人類生物學等複雜問題上的巨大潛力。
“我認為我們正處於一個非常激動人心的時刻。” Hassabis提到:「在接下來的十年中,我們和AI領域的其他人都希望能取得突破性進展,真正加速解決我們在地球上面臨的真正重大問題。 ”
對於接下來的計劃,EMBL-EBI的結構生物資訊學Sameer Velankar談道,到今年年底,本周提交的大約36.5萬個蛋白質結構預測將增加至1.3億個,幾乎是所有已知蛋白質的一半。
此外,隨著DeepMind的繼續投資,以及未來對AlphaFold的改進,系統和資料庫也將定期更新。
結語:站在巨人肩膀上看未來,以AI實現多領域多點開花
對DeepMind而言,從AlphaFold系統的更新反覆運算到蛋白質結構資料庫的開放,研究團隊在五年裡不僅必須要創造性地克服許多技術難題,還要面臨許多複雜演算法的創新挑戰,這些都是推動人工智慧和生物學領域發展的必經之路。
不能忽視的是,DeepMind乃至未來研究團隊的創新,都是建立在先前幾代科學家的研究發現上。 從蛋白質成像和晶體學的早起先驅,到數以千計的預測專家和結構生物學家,他們一路披荊斬棘,花了多年時間對蛋白質展開深入研究。
我們也期待,站在巨人的肩膀上的他們,未來能開闢更多創新的科學研究途徑,推動更多領域的發展和進步。
來源:DeepMind、TheVerge、Nature