為何諾貝爾化學獎又頒給AI?萬字詳解:AI重塑結構生物學
2024 年10 月9 日北京時間17 時45 分許,戴維·貝克(David Baker)因計算蛋白質設計,戴米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John Jumper)因蛋白質結構預測共同獲得2024 年諾貝爾化學獎。
大衛貝克(David Baker)是美國化學家、計算生物學家,華盛頓大學教授、蛋白質設計研究所主任,計算蛋白質設計和預測領域先驅。貝克1962年出生於美國華盛頓州,1984年在哈佛大學取得生物學學士學位,1989年獲得加利佛尼亞大學柏克萊分校生物化學博士學位, 並在加州大學舊金山分校完成生物物理方向的博士後訓練。貝克是被廣泛使用的蛋白質結構從頭設計和預測軟體「羅賽塔」的發明人,他的團隊也設計出了第一個具有全新折疊結構的人工蛋白質Top7。
戴米斯·哈薩比斯(Demis Hassabis)是英國電腦科學家,人工智慧研究者、前遊戲設計師,DeepMind(現為Google DeepMind)共同創辦人及執行長。哈薩比斯1976年出生於英國倫敦,幼年便展現出驚人的智力天賦,13歲達到國際象棋大師水準。青少年時代的哈薩比斯大部分時間在家由父母輔導自學,15歲時開始遊戲設計師生涯,並在21歲時獲得劍橋大學電腦科學學位。畢業後,他繼續遊戲設計師工作,運用AI演算法參與開發了著名遊戲《黑白》、《共和國:革命》和《邪惡天才》;在此過程中,他對神經科學產生濃厚興趣並重返校園,2009年獲得倫敦大學學院認知神經科學博士學位,其後在麻省理工學院-哈佛大學進行神經科學和人工智慧研究。 2010年,哈薩比斯在英國倫敦聯合創立機器學習公司DeepMind,並帶領團隊先後發表震撼世界的AlphaGo、AlphaFold系列模型。在Google收購DeepMind 後,哈薩比斯帶領團隊主導了Google最先進的人工智慧模式Gemini的開發。
約翰·江珀(John Jumper)是Google DeepMind 高級研究員。江珀1985 年出生於美國阿肯色州,2007 年在美國范德比爾特大學取得物理學和數學學士學位, 2008 年在英國劍橋大學取得理論凝聚態物理學碩士學位。之後,江珀在美國生物化學研究公司DE Shaw Research 擔任了3 年科學助理,利用電腦模擬進行分子動力學研究,並開發了一種從這些模擬中提取關鍵數據的演算法。 2017 年,江珀在美國芝加哥大學取得理論化學博士學位,利用機器學習模擬蛋白質摺疊和動力學研究。之後,他又在芝加哥大學完成了博士後研究,繼續從事蛋白質預測深度學習模型的研究工作。 2018 年起,江珀進入英國DeepMind 公司擔任資深研究員。在DeepMind 公司,江珀和同事開發了AlphaFold 系列模型,他也是AlphaFold2 開發團隊的領導者。
《環球科學》雜誌2024年10月新刊推出「AI重塑結構生物學」系列專題文章,恰逢其時地對今年諾貝爾化學獎的成果及三位獲獎者的研究進行了深入解讀。文章系統整理了計算蛋白質設計與結構領域的發展歷程,並詳盡解析了其中的重大突破與前沿進展。為方便讀者係統完整了解今年的得獎成果,我們特將兩萬餘字的專題內容全文刊登。
撰文 | 亞塞明·薩普拉科格盧(Yasemin Saplakoglu)
翻譯 | 金燁 鐘博子韜
審校 | 張陽
打破僵局的“羅塞塔”
2020年12月,上百位計算科學家端坐在各自的電腦螢幕前,見證了科學新紀元的展開。他們因為一場會議而匯聚一堂。在這場友好的競爭中,有些人已經參與了近三十年,沉迷於探討一個不變的問題——著名的「蛋白質結構預測問題」。它解釋起來很簡單:人們能否憑藉最簡單的訊息──一段蛋白質分子的一維序列,精準預測出它的立體結構?蛋白質維持著我們細胞與身體的活力和運轉,由於它的行為取決於其形狀與結構,因此成功解答這個問題將深刻影響我們對疾病、新藥研發以及生命機制的理解。
這個會議每兩年舉辦一次,科學家會在會議中測試自己最新研發的蛋白質結構預測工具。然而,解決方案總是遙不可及,其中一些賭上了自己的整個科學研究生涯,試圖提高預測的準確性。這場競賽始終處於嬰兒學步階段,所以大家不認為2020年會有所不同。
但是,他們錯了。就在那一周,一名叫約翰·江珀(John Jumper)的科學家在蛋白質結構預測這一領域嶄露頭角,他展示了一套全新的人工智能(AI)工具“阿爾法折疊2”(AlphaFold2),它是Google位於英國倫敦的人工智慧子公司「深度思維」(DeepMind)的研發成果。在線上視訊會議上,這位在該領域資歷尚淺的科學家報告的數據表明,AlphaFold2的蛋白質三維結構預測模型準確率超過90%,是緊隨其後的對手的5倍。
一瞬間,蛋白質結構預測從不可解的難題變成了不再令人痛苦的問題。人類思維陷入僵局,AI大獲成功,一舉震驚了生物學界。 「我當時就驚呆了,」與會的美國哥倫比亞大學數學基因組學計畫(Program for Mathematical Genomics)的系統生物學家穆罕默德·庫雷希(Mohammed AlQuraishi)說,「很多人不願意承認(AlphaFold2的成就)。
但在總結發言中,會議組織者約翰·莫爾特(John Moult)以不容置疑的口氣說道:AlphaFold2「在很大程度上解決了」蛋白質結構預測問題,自此徹底改變了蛋白質科學。莫爾特穿著黑色高領衫,坐在自家辦公室的書架前,在會議軟體上點擊自己的幻燈片,語氣激動又帶著一絲不祥的口吻:“這不是終結,而是開始。”
當Google的公關部門將這一消息在全球大肆宣揚之後,媒體為之瘋狂。各大頭條口徑一致:AlphaFold2「將改變一切」。而那些將一生貢獻於探索單一蛋白質結構的結構生物學家們則心生恐懼,擔心自己會失業。有些人主張AlphaFold2會革新藥物研發,能讓生物學家快速確定蛋白質結構,創造全新的標靶藥物。其他人則反駁說這些結果大部分都是炒作,這個世界並不會因此而產生什麼變化。莫爾特自己也無法理解這個橫空出世的新事物。會議結束時,他提出了一個每個人都想問的問題:“接下來怎麼辦?”
現在,時間已經過了三年半,他這個問題終於能得到回應了。毫無疑問,AlphaFold2確實改變了生物學家研究蛋白質的方式。然而,儘管AlphaFold2是強大的預測工具,但它並非無所不能。它非常巧妙地使用不同於科學家的方法來解決了一部分蛋白質結構預測問題,卻無法取代生物實驗,反而更凸顯了實驗的必要性。
也許AlphaFold2最大的影響力是讓生物學家注意到了AI的威力。它啟發了新的演算法,例如設計出自然界中並不存在的全新蛋白質,也催生了新的生物技術公司以及實踐科學的新方法。它的新版本AlphaFold3在2024年5月上線,引領生物學預測技術進入下一階段:建構蛋白質與其他分子(諸如DNA或RNA)結合的複合體結構。 「這是迄今為止最宏大的『機器學習驅動科學』的故事。」庫雷希說。
不過,AI無法填補的鴻溝仍然大量存在。這類工具無法模擬蛋白質隨著時間推移而發生的變化,或無法建構處於自身生存環境即細胞中的蛋白質的動態結構。而在科學家為AlphaFold2的預測能力折服之前,人類對蛋白質結構背後隱藏秘密的不懈追求,已經持續了半個多世紀。
問題的誕生
一張摺紙不過是一層被壓縮的木漿,直到以特定方式折疊,它才煥發新生。只需要幾次精準地翻捲和壓折,這張紙就能變成「算命大師」預言你的未來。在同一張紙上改變一些折疊步驟,一隻紙鶴就此展翅而來,給收到它的人帶來好運。
同樣,一長串胺基酸分子鏈本身沒有任何功能,直到它自發性地折疊成固有形狀,生物學家稱之為蛋白質結構。蛋白質的結構決定了自身與其他生命分子結合或相互作用的方式,從而定義它在細胞中的作用。
地球上已知的蛋白質種類上億,未知的則更多。它們無所不能:血紅蛋白和肌紅蛋白在肌肉和身體中循環輸送氧氣。角蛋白為頭髮、指甲與皮膚提供結構框架。胰島素協助葡萄糖進入細胞,轉化成能量。蛋白質可以呈現無數形狀結構,以配合生命活動過程中無數的「工作需求」。 “從原子到生態系統,(蛋白質結構)就像是一種通用語。”庫雷希打比方道,“萬物源自此處。”
細胞讓名為胺基酸的小分子像雛菊花環一樣連起來形成勝肽長鏈,製造出蛋白質。它所選擇的胺基酸取決於DNA提供的一連串指令。在這個創造過程中,多肽鏈一瞬之間就能彎曲扣合,精準地折疊成蛋白質最終的三維結構。一旦脫離分子組裝流水線,蛋白質就會立刻奔赴屬於自己的生物學工作。
如果蛋白質無法順利完成折疊過程,災難將接踵而至,破壞身體功能。蛋白質錯誤折疊或展開都會產生毒性,導致細胞死亡。許多疾病與身體障礙,例如鐮狀細胞貧血,都由蛋白質錯誤折疊造成。此外,錯誤折疊的蛋白質還會凝聚成斑塊,成為阿茲海默症和帕金森氏症等神經退化性疾病的生物學標誌。
然而,無人確切知曉蛋白質折疊究竟是如何發生的。這些簡單分子鏈中的序列訊息如何編碼蛋白質的複雜結構?這是“我們能夠提出的最深刻的問題”,美國約翰霍普金斯大學(Johns Hopkins University)大學的生物物理學名譽教授喬治·羅斯(George Rose)如此評論道。
科學家對這個問題的探索最早可追溯至1930年代,但真正開始動手嘗試解謎則是在1950年代中期。當時,生物化學家克里斯蒂安·安芬森(Christrian Anfinsen)將蛋白質加入化學溶液中,試圖打斷化學鍵展開蛋白質,或令其錯誤折疊。安芬森發現,被打開或錯誤摺疊的蛋白質會自發性重構成正確結構。這個後來為他贏得了諾貝爾獎的發現,表明蛋白質會根據其內部代碼形成三維結構,這個代碼是由它的氨基酸鏈書寫的。
於是,安芬森假設,我們應該能找到一種方法,透過胺基酸序列來預測蛋白質的形狀結構。這就是後來廣為人知的「蛋白質折疊問題」。
一旦多肽鏈組裝完成,蛋白質便能在千分之一秒內折疊成形,速度之快讓分子生物學家塞勒斯·利文索爾(Cyrus Levinthal)困惑不已。在1969年發表的論文《如何優雅折疊》(How to Fold Graciously)中,利文索爾計算出,如果蛋白質嘗試每一種可能的折疊方式,那麼組裝完畢所需的時間可能會無限漫長。他思索著,顯然一定有什麼方法能更直接地「護送」蛋白走在正確折疊的道路上。
隨著時間的推移,蛋白質折疊問題已經分化成了全新的類型。如今的科學家提出了三大主要問題:能否透過蛋白質胺基酸序列來預測蛋白質結構?蛋白質的折疊編碼是什麼?它的折疊機制又是怎麼樣的呢?
在1960年代早期,隨著第一批實驗確定的蛋白質結構相繼問世,這些問題開始「鑽入」科學家的大腦。英國劍橋大學(University of Cambridge)的兩位生物學家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John Kendrew)讓蛋白質生長成晶體,用X射線轟擊後測量射線偏折的程度,這項技術便是X射線晶體學(X-ray crystallography)。如此一來,他們就能確定血紅素和肌紅蛋白的三維結構。這個過程耗費了兩人二十多年的時間,最後為他們帶來了諾貝爾獎。
自此之後,無數科研人員努力鑽研,不僅想要理解不同蛋白質不同的結構形態,還要知道它們是如何形成的。 「想要看清事物的樣貌是人的本性,因為只有知其然,才能知其所以然。」英國格拉斯哥大學(University of Glasgow)的結構生物學家海倫·沃爾登(Helen Walden)解釋道。有些人從蛋白質化學入手,其他人則集中解決物理角度上的問題。實驗科學家展開艱苦的研究工作,重建蛋白質結構;計算生物學家以各種方式結合演算法進行編程和重編程,透過模型和模擬來捕捉線索。
隨著被破解的蛋白質結構越來越多,這個領域需要新的方法來組織與分享資訊。 1971年,為蛋白質結構存檔的蛋白質資料庫(Protein Data Bank)成立了。這個免費的資料庫成為了需要了解蛋白質結構、探索生物學問題的研究者的可靠研究工具。蛋白質資料庫成立之初,裡面只保存了7種蛋白質結構。 50年後GoogleDeepMind用它來訓練AlphaFold2時,它所保存的蛋白質結構數量已超過14萬,這都是結構生物學家在實驗室內解析所得。
實驗科學家的苦惱
從70年代中期開始,珍妮特·桑頓(Janet Thorntom)每隔幾個月一定會收到一隻郵包,裡面是一盤12英寸磁帶,記錄著被存入蛋白質數據庫的新結構數據。身為英國牛津大學(Oxford University)的生物物理學家,桑頓迫不及待地打開包裹,在新結構被發現後的第一時間展開分析。她收到的第一份磁帶中只有20個結構。
每一個蛋白質結構都凝結著數年研究的心血。通常情況下,讓單一蛋白質結晶,從中收集數據或解釋數據以解析出折疊結構,需要一個博士生在研究生院投入四年或更長的時間。牛津大學生物物理系當時是全球X射線晶體學的研究中心之一。 1965年,蛋白質晶體學領域的先驅之一——戴維·菲利普斯(David Phillips)首先確定了溶菌酶的結構——這是我們的免疫系統用來攻擊細菌的一種蛋白質。
使用X射線晶體學方法,牛津大學的生物物理學家繪製出了蛋白質電子密度圖譜,圖中電子集中的區域可能包含一個原子。桑頓和同事將電子密度圖譜印到塑膠薄片上,一張又一張地疊放起來,創造出了蛋白質地理的「等高線圖」。
然後,他們將圖片轉變成實體模型。科學家將印在塑膠上的圖譜放入名為「理查茲盒」(Richards box)的設備中,該設備1968年由牛津大學生物物理學家弗雷德里克·理查茲(Frederic Richards)發明,並以他的名字命名。理查茲盒的內部有一面以一定角度傾斜的鏡子,能將圖片反射到工作區域內,這樣科學家就能真切地看清每個原子之間的相對位置。接下來,他們使用圓球和小棍子,搭建出實體實體模型。
這方法過程繁瑣,限制頗多。 1971年,後來成為著名晶體學家的路易絲·約翰遜(Louise Johnson)正在建造磷酸酶的模型,它由842個氨基酸組成,是當時科學家研究的最大蛋白質。為了建模,約翰遜必須爬上兩層樓高的理查茲盒,這是牛津為了她的研究專門建造的。
模型建成後,科學家用尺來測量各原子之間的距離,確定蛋白質結構座標。 「這個方法很古老,」桑頓說。接下來,他們將所有座標資料輸入電腦中,電腦版的蛋白質結構看起來像一片密林,她繼續解釋道,原子雜亂聚集在一起,只有戴上3D眼鏡,才開始能看到蛋白質的拓樸結構。 “整個過程非常折磨人,”桑頓說,“但結果出來後又令人愉悅。”
經過年復一年的努力付出,一旦科學研究人員確信自己的蛋白質結構無誤,就將資料提交給蛋白質資料庫。 1984年,資料庫內存放了152種蛋白質結構,到了1992年,數字成長至747。
就在實驗科學家努力建造物理模型的同時,另一批蛋白質生物學家──計算生物科學家卻另闢蹊徑。他們思考著安芬森對於可以透過胺基酸序列預測蛋白質結構的假說,並且有點太自信了。
書寫自己的法則
1960年代初,還是本科生的約翰·莫爾特打算成為物理學家。然後,他了解到了蛋白質折疊問題。 「有人舉辦了一場講座,說生物太重要了,不能只留給生物學家。」他說,「我很自負地把這話當真了。」被講座深深吸引的莫爾特將自己的職業生涯轉向了另一個方向。
畢業之後,莫爾特進入了蛋白質晶體學領域。他破解若干蛋白質結構,包括β-內醯胺酶(一種會破壞青黴素的細菌酵素)。 1970年他在牛津大學獲得了分子生物物理學博士學位。但在開始博士後工作的時候,他厭倦了實驗方法,開始轉向日漸蓬勃的蛋白質計算領域。計算生物學家,可以說是實驗科學家的對立面,他們編寫電腦演算法,試著證明安芬森是對的:給程式投餵胺基酸鏈,讓它產生正確的蛋白質結構。
從生物實驗轉向計算領域並非易事。莫爾特習慣了對每個蛋白質結構進行緩慢但細緻的研究。而在新領域中,關於演算法的論文一篇接著一篇,常常宣稱已經解決了蛋白質結構問題以及相關的子問題。
莫爾特對此持懷疑態度。 「計算生物學領域發表的文章並不像我以前熟悉的研究那麼嚴謹。」他說,「這並不是因為這個圈子裡的人都是騙子,而是因為如果你進行計算研究,就是在虛擬世界中工作。
在虛擬世界中,計算科學家編寫自己的法則,而自然世界的法則在此不發揮作用。他們設計自己的演算法,好讓原子以某一方式凝聚在一起,或讓蛋白質總是向右或向左折疊。隨著時間的推移,模型與現實越來越遙遠。在一個完全處於自己掌控的世界中,人們很難始終保持嚴謹,莫爾特如此評價。
儘管如此,他能看到這兩個領域各自的優勢。實驗科學家的研究細緻但緩慢;計算科學家迅速卻偏離生物物理的現實,所以他們經常出錯。於是,他想到,一定有方法,能夠將這兩個途徑結合起來。
開始“跺腳”
1990年代初,莫爾特和同事克日什托夫·菲德利斯(Krzysztof Fidelis)想出了一個辦法來規範領域內混亂的情況。他們創立了一個群體性科學實驗,稱為「全球蛋白質結構預測比賽」(Critical Assessment of Structure Prediction,CASP)。
他們的想法很簡單,作為CASP的組織者,莫爾特與菲德利斯會公佈一張氨基酸序列清單,這些序列所代表的蛋白質結構已被實驗科學家解析出來,但尚未公開發表。隨後,全球的計算科學團隊可以使用他們能想到的任何方法來預測蛋白質結構。將有一支獨立的科學家團隊評估後者的模型,將其與實驗確定的結構進行對比。
這個主意被推行開來,CASP很快就成為了用計算生物學方法解決結構預測難題的試驗場。當時AI還未誕生,計算方法主要涉及分子物理學模擬。對科學家來說,這正是將自己的想法付諸實驗,與同儕公開測試的好機會。 “這原本不是競賽。”桑頓說,“但結果卻成為了一場競賽。”
每隔兩年,科學家齊聚阿西洛瑪會議中心(Asilomar conference center),這是位於美國加州蒙特利附近的古老教堂,曾是基督教新教衛理公會的靜修場所。會議期間,主辦單位宣布競賽結果,計算生物學家彼此交流自己的方法。如果與會者不喜歡他們聽到的內容,莫爾特鼓勵學者在木地板上跺腳表達意見。
「一開始,跺腳聲響成一片。」他說。曾跟隨桑頓學習的英國倫敦大學學院(University College London)生物資訊學教授戴維瓊斯(David Jones)回憶道,「聲響就跟打鼓一樣。」如果會議陷入細節的泥沼,生物學家們就會跺腳;如果言過其實,他們也會跺腳;如果發言人不停重複或過於囉嗦,他們還是會跺腳。當然,這些都是友善跺腳,「並不令人生厭」。
無論出於何種原因,當吵雜的跺腳聲傳入發言人的耳中,總是會讓人尷尬。 「感謝上帝,我發言的時候從來沒人跺腳。」瓊斯說道,他的團隊提出了一套名為「穿針引線」(threading)的計算方法,這種方法將氨基酸序列「編織」進已知的蛋白質結構中,據此來匹配正確的結構。結果還不錯。 “我們很滿意,之後一切就順理成章了。”瓊斯笑著回憶道,“還充滿樂趣。”
義大利帕多瓦大學(University of Padua)生物資訊學教授西爾維奧·托薩托(Silvio Tosatto)說,當時大家都興奮不已。 “人們認為自己能成為百萬富翁,因為他們掌握了正確的演算法,還有一些人覺得自己馬上就能得諾貝爾獎了。”
在最初幾年內,什麼事都沒發生。當被問及當時CASP的預測結果提交情況時,莫爾特頓了一下說:「隨機是個不錯的說法。」有些方法的表現超出預期,例如「同源性建模」(homology modeling),這種方法將已知蛋白質結構作為參照,用來推測未知的蛋白質結構。其他方法則一無所獲。大部分結構預測“看起來都很折磨人”,莫爾特說。
「我樂於看到他們失敗。」荷蘭癌症研究所(Netherlands Cancer Insitute)和烏特勒支大學(Utrecht University)的結構生物學家阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)開玩笑道。他向CASP組織者提供實驗確定的結構,用於預測競賽。 “這不是競爭,但我們喜歡在科學上互相逗樂。”
在這過程中,明顯的領先者出現了。 1996年,第二屆CASP結束後,一位名叫戴維‧貝克(David Baker)的年輕人邀請瓊斯一同坐車去機場。貝克聽過瓊斯的演講,正在鑽研自己的計算模型。雖然模型還沒準備好參加CASP,但他很想先和瓊斯聊聊。瓊斯在車上聽了他的想法,也沒想過以後還會再見。
然而,1998年下一輪競賽期間,貝克帶著自己的「羅塞塔」(Rosetta)演算法一鳴驚人。他成為了“最難打敗的人”,瓊斯這樣評價。像羅塞塔這樣的演算法模擬胺基酸分子中原子之間的相互作用,以此預測它們的摺疊方式。這“表明你確實可以預測蛋白質結構,”貝克解釋說,“但不夠好,也不夠精確,用途不大。”
2008年時,人類還能戰勝電腦。貝克當時已經在美國華盛頓大學(University of Washington)擁有了自己的實驗室。他開發了一款名為「折疊它」(Foldit)的免費線上遊戲,玩家需要將給定的氨基酸鏈折疊成蛋白質結構。在一篇發表於《自然》(Nature)的論文中,他的團隊報告說在模擬蛋白質結構方面,人類玩家的表現超越了羅塞塔演算法。
然而,人類的領先優勢並沒有持續太久。在10世紀10年代初,「協同演化」(co-evolution)這個概念的重大突破推動了領域的發展,後來也成為了AI預測工具誕生的關鍵。這個概念已存在了幾十年,解釋起來相當簡單:透過比較數百個乃至數千個密切相關但彼此不同的蛋白質的氨基酸序列,科學家能夠識別出那些發生了突變氨基酸,重點是,還能確定它們是否與其他氨基酸同步突變。如果兩個胺基酸共同變化,它們很可能以某種方式相連。 「你就能說:『這兩個胺基酸在空間上可能很接近。』」美國勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory)的結構生物學家保羅·亞當斯(Paul Adams)解釋道。
但直到21 世紀10年代初,這種預測哪些胺基酸可能存在物理接觸的準確率依然很低,徘徊在20%~24%。後來,科學家注意到自己的統計方法會引入錯誤,數據顯示一些胺基酸有接觸,但實際上並沒有。接下來,莫爾特了解到,幾十年來統計學家一直敏銳地知到這樣的錯誤確實存在。他說,當你回頭看時,你會想,“我怎麼會這麼蠢?”
計算生物學家改進了統計學工具。到2016年,胺基酸接觸預測的準確率攀升至47%,兩年後則達70%。貝克的演算法便是建立在這項成功之上:2014年羅塞塔非常精準地產生了兩個蛋白質結構,CASP評估者甚至認為貝克可能解決了蛋白質結構預測的難題。
協同演化的見解“絕妙無比”,亞當斯如此說道。在不使用機器學習的情況下,協同演化是「推動領域前進的重大事件之一」。然而,該領域的發展仍然有限。協同演化要求大量的相似蛋白質彼此比對,而實驗科學家解析蛋白質結構的速度沒那麼快,無法滿足計算科學家的需求。對此,莫爾特套用了一個演化生物學術語:研究蛋白質結構預測的進度是一種「間斷平衡」。有時候,大家覺得好像幾十億年都沒出現什麼好想法,然後,一些令人振奮的事情就會發生。
AlphaFold2一鳴驚人
2016年,戴維瓊斯(David Jones)在《自然》(Nature)雜誌發布的一篇新論文中瞥見了未來。在這篇論文中,Google(Google)旗下、位於英國倫敦的人工智慧團隊深度思維的研究人員詳細描述了他們如何使用一種名為「深度學習」(deep learning)的演算法,在古老的圍棋遊戲中擊敗了人類冠軍。這項成果令瓊斯十分驚訝。 “情況正在變化,”他回憶起當時自己的想法,“我意識到了解深度學習迫在眉睫。”
深度學習是一種受人腦啟發而開發的人工智慧方法。在大腦中,分子訊息會透過神經元組成的一個神經網路傳遞。神經元是腦細胞的一種,它們有一些名為樹突的小手臂,可以「抓住」鄰近神經元釋放的信號分子(也稱為神經傳導物質),這些信號分子會告訴接收的神經元是否激活並傳播信號。 「如果神經元接收到足夠的刺激,那麼它就會激活並釋放信號分子,」美國布朗大學計算機科學教授邁克爾·利特曼(Michael Littman)說道。這些訊號分子被釋放後,會傳遞到下一個神經元。
在1950年代,一些電腦科學家意識到,他們可以將電子比特連接在一起,創建一個「人工神經網路」(Artificial Neural Network,ANN)。 ANN中的每個單元都是一個節點,研究人員將其比作一個人工神經元:在ANN中,人工神經元接受來自其他人工神經元的信息,並通過計算決定是否需要向下一個人工神經元傳遞信號。訊息會透過多層人工神經元傳播,以產生一個特定的結果,例如從一張圖像中識別出一隻狗。神經元層數越多,進行的計算就會越複雜。然而,早期的ANN僅有兩層神經元。在1990年代,這一數量增加到三層,並維持了20年。 「我們無法找到可靠的方法來創建更深層的網絡,」利特曼說。
自1990年代以來,包括瓊斯和約翰·莫爾特(John Moult)在內的結構生物學家就一直在嘗試將ANN應用於蛋白質科學。然而,淺層神經網路的限制和稀疏的數據阻礙了他們前進。不過在大概十年之前,電腦科學家學會如何更好地建構ANN,從而可靠地訓練更多層的網路。 ANN的深度從20層、50層、100層逐漸增加到數千層。 「為了將這些新網路與上世紀90年代的ANN區分開來,人們開始稱其為『深度學習’,』」利特曼說道,「如果說機器學習領域的人特別擅長哪件事,那一定是起一些有吸引力的名字。
2016年3月,當DeepMind的聯合創始人戴米斯·哈薩比斯(Demis Hassabis)在韓國首爾觀看他的AI系統“阿爾法圍棋”(AlphaGo)在圍棋比賽中擊敗一位人類世界冠軍時,他突然回想起自己在大學時玩蛋白質折疊遊戲Foldit的經驗。他不禁思考:既然DeepMind的研究人員能夠編寫一個模仿圍棋大師直覺的演算法,他們是否也能發展出一個演算法,去模擬Foldit玩家對生物學一無所知但仍能成功折疊蛋白質的直覺呢?
美國芝加哥豐田計算技術研究院(Toyota Technological Institute at Chicago)的教授許錦波(Jinbo Xu)也意識到了深度學習在解決蛋白質結構預測的潛力。當時,電腦科學家在卷積神經網路(Convolutional Neural Networks,CNN)中取得了巨大成功,在這種網路中,演算法會將圖像分解為小塊,並透過識別這些小塊之間的模式來處理圖像。受到這些影像處理網路的啟發,許錦波將這項技術引入蛋白質結構預測。他使用一種稱為矩陣的數學對象,來描述在空間上彼此接近的氨基酸,然後將這個矩陣作為圖像輸入CNN。演算法會在這些影像中尋找規律,以預測蛋白質中各個原子的三維座標。
2016年,許錦波在預印本文庫arXiv上發布了研究成果,並隨後將其發表在《公共科學圖書館·計算生物學》(PLOS Computational Biology)上。莫爾特說,「這項工作在該領域產生了深遠的影響,它向人們展示了『如何使用深度學習來做這類事情(例如蛋白質結構預測)』。」沒多久,許多蛋白質結構研究小組也開始嘗試深度學習。穆罕默德·庫雷希(Mohammed AlQuraishi)和他的研究團隊開發了第一個完全依靠ANN直接預測蛋白質結構的方法,這類方法也被稱為「端到端」方法——儘管預測效果並不理想。其他研究者也開始探索這種革命性的新方法。
「最初我並不完全知道自己想用深度學習來解決什麼具體問題,但我意識到我需要進入這一領域,」瓊斯說。於是,他開始撰寫經費申請以尋找自己的方向,就在這時,他恰巧收到了DeepMind的電子郵件。他們詢問了瓊斯關於全球蛋白質結構預測比賽(CASP)的情況,並表示願意提供協助。 「我以為他們的意思只是想說:我們擁有很多算力,」瓊斯說。然而,在瓊斯見到他們之後,他發現Google顯然有更大的雄心壯志。而為了實現這些目標,這家科技巨頭需要更多學術界的人才。
新秀登場
2016年,當瓊斯開始作為顧問參與DeepMind的計畫時——即後來的阿爾法折疊(AlphaFold),約翰·江珀(John Jumper)正在美國芝加哥大學攻讀他的理論化學博士學位。江珀在青年時期不僅自學了編程,也展現出物理上的天賦。所以當他進入大學時,儘管他的工程師父母擔心他將來可能很難找到工作,但他還是堅定地選擇了數學和物理專業。 “我一直認為自己會成為一名研究’宇宙法則’的物理學家,”江珀說,“我一直很喜歡這種探索宇宙真理的想法。”
在美國范德比爾特大學(Vanderbilt University)就讀本科期間,他與費米實驗室的研究人員合作研究一種名為夸克的亞原子粒子的獨特性質。有一天,當他和許多研究人員一起坐在午餐桌旁時,他聽到了一個令人沮喪的消息。 「我們正在設計的這個實驗,什麼時候會啟動?」江珀回憶起當時曾這樣問道。一位教授表示可能要等到他退休後,而另一位更年長的教授說,他可能看不到那一天了。
「我希望從事一些時間週期更短的科學研究,」江珀說。本科畢業後,他開始攻讀凝聚態物理學的博士學位,但很快便輟學了。這之後他在紐約的DE 肖研究公司(DE Shaw Research)找到了一份工作,這家公司當時正在進行蛋白質動力學模擬的基礎研究。透過了解蛋白質如何運動和變化,他們希望能夠更好地理解各種疾病(例如肺癌)的致病機制。
這是江珀第一次了解到自己的工作具有潛在的重大意義:「這關乎人類的健康,能延長人們的生命」。在接下來的3年裡,江珀在該公司的超級電腦上模擬蛋白質的運動,這些超級電腦專門用於加速分子動力學模擬。 「有時候我花一天時間進行的模擬比我整個博士期間的總和都要多,」他說。
2011年,他再次攻讀博士學位,這次是在芝加哥大學學習理論化學。他仍然對蛋白質的結構和運動充滿興趣,但同時也為學術界緩慢的研究進展而沮喪。 「我不再能使用DE 肖研究公司那些定制的電腦硬體了,」江珀說。他想知道是否可以使用人工智慧——「當時我們稱之為統計物理學」——來實現快速的蛋白質模擬,這個過程通常需要藉助先進的機器才能實現。於是他開始涉足機器學習和ANN。
也是在這段期間,他開始思考蛋白質結構預測的問題。他認為利用蛋白質資料庫(Protein Data Bank, PDB)中的結構作為訓練資料就能解決這個問題-到2012年時,該資料庫已包含超過7.6萬個蛋白質結構。 “我相信這些數據是足夠的,”江珀說道,“但當時的方法還不夠成熟。”
在博士期間,江珀一直致力於利用機器學習來模擬蛋白質的折疊和運動過程。 2017年,剛獲得博士學位的他聽聞DeepMind正在進行蛋白質結構預測,便申請了研究科學家的職位。 「當時這個項目仍然是保密的,」江珀說。在面試中,只要他提到蛋白質結構預測,DeepMind團隊就會迅速轉移話題,“然而,正是因為他們這樣做了太多次,我才確信他們確實在做這件事情。”
2017年10月,江珀來到了DeepMind位於倫敦的辦公室。在瓊斯的幫助下,團隊已經在對AlphaFold進行深入的開發工作。 「那段時間非常有趣,我們會不停地提出各種想法。」瓊斯說道,「最終一個好的核心想法浮現出來,團隊便開始沿著這個方向展開工作。」為了訓練他們的演算法,DeepMind團隊使用了PDB中超過14萬個蛋白質結構。他們將這些資訊輸入到一個CNN中,但對人工智慧架構本身沒有進行太多改變。 “這是’標準的機器學習’”,江珀說。
到2018年春天,AlphaFold已經準備好參加CASP,與真正的蛋白質科學家競爭。 「這有點像F1賽車,」瓊斯回憶道,「你以為你造了最好的車,但你不知道其他團隊造了什麼。」這場比賽的風險很高,DeepMind團隊討論了是否應該匿名參賽,畢竟他們不想冒著被羞辱的風險。 「沒有人想失敗。」瓊斯說,「在學術界,這是研究工作的一部分。如果你失敗了就只能繼續前進,因為你沒有其他選擇。但如果你是一家市值數十億美元的科技公司,嘗試做某事卻失敗了,這顯然會給外界留下不好的印象。
他們最後還是決定以DeepMind的名義提交結果。在12月舉行的CASP會議的前幾個月,瓊斯收到了CASP組織者的消息。他們建議DeepMind團隊來參加會議,因為AlphaFold表現非常好,它在超過一半的蛋白質結構預測中,給出了最好的預測。儘管這場勝利並不算特別耀眼,其蛋白質結構預測總分只比第二名高13分,但也給人留下了深刻印象。 「顯然,一些有趣的事情發生了,」莫爾特說。
演算法新生
這場勝利大大鼓舞了DeepMind團隊,但他們深知距離徹底解決蛋白質結構預測問題還有一段很長的路要走。哈薩比斯再次將他們聚集在一起。 「我們要繼續攻克這個問題嗎?」江珀回憶起哈薩比斯的話,「如果不繼續,那就去尋找那些我們能產生巨大影響的問題。」江珀繼續說,「有那麼一刻,我們決定要把這個問題徹底解決。
憑藉著在物理、化學、生物學和計算領域的多樣化背景,江珀為那些腦力激盪會議帶來了獨特的見解。不久後,他開始領導這個團隊,團隊的規模也從最初的6人擴大到了15人。 「有一些非常特別的事情正在發生,」拉斐爾·湯曾德(Raphael Townshend)說。 2019年,他曾在DeepMind實習,後來創辦了由人工智慧驅動的生物科技公司「原子人工智慧」(Atomic AI)。
在學術界,專家們往往彼此分隔,各自研究一些獨立項目,很少尋求合作。而在DeepMind,來自統計學、結構生物學、計算化學、軟體工程等領域的專家們齊聚一堂,共同研究蛋白質結構預測問題。他們也擁有Google提供的龐大財力和運算資源。 「我在博士期間需要花費幾個月完成的事情,在這裡一天就能完成,」湯曾德說。
「倫敦的DeepMind辦公室充滿活力,而其中的大部分活力都來自江珀。」湯曾德說,「我認為他是一個真正的天才,同時也是一個非常謙遜的人。」美國電腦科學家艾倫·鐘(Ellen Zhong)說:「他深受團隊的喜愛。」鐘曾於2021年在DeepMind實習,現在是美國普林斯頓大學(Princeton University)的助理教授。
在江珀的領導下,團隊對AlphaFold進行了重構,開發了AlphaFold2。 DeepMind設計了一種新型的轉換架構(Transformer)——“在過去5年中,這種深度學習模型幾乎推動了所有機器學習演算法實現突破”,湯曾德說道。這種ANN透過調整連接的強度來建造更精確的數據表徵,在AlphaFold2中用於處理蛋白質的演化和結構數據。隨後,這些資料會被第二個Transformer架構用來預測一個蛋白質的三維結構。 AlphaFold2將預測的結構與一些修正資料繼續輸入這些架構中,以進一步優化預測的蛋白質結構。
「當我們剛開始研發AlphaFold2時,演算法表現得非常糟糕,但並沒有我們預期的那麼糟。」江珀說,「它得到了一些看起來有點像蛋白質的螺旋結構。」但隨著他們進一步優化演算法,他們注意到預測的效率和準確性都大幅提高。 「這確實讓人有點害怕。」江珀說道,「如果它表現得太好,通常意味著你做錯了什麼。」但他們檢查後沒有發現任何問題,AlphaFold2確實在正常工作。
團隊決定進行一項內部實驗,看看他們的系統是否對生物學家有幫助。他們挑選了大約50篇發表在《科學》(Science)、《自然》(Nature)和《細胞》(Cell)等頂尖期刊上的論文。這些論文不僅描述了一種新的蛋白質結構,還從蛋白質的結構中得出了一些關於其功能的見解。他們想看看AlphaFold2的表現能否與實驗人員費時費力獲得的研究成果相提並論。
於是,他們將這些胺基酸序列輸入AlphaFold2的預測引擎。對於每個序列,它給出的預測都很接近論文中的實驗所獲得的蛋白質結構。然而,在DeepMind團隊看來,這仍然不夠準確,這些結構中缺乏實驗研究人員從蛋白質中獲得的一些關鍵細節。 「你認為自己跑完了比賽,卻發現只是跑了一半,」江珀說。在接下來的6個月裡,團隊進一步優化了系統,一點一點地改善細節。在2020年CASP的蛋白質結構預測名單發布前幾週,他們又進行了另一次有效性測試,江珀對這項結果感到滿意。 DeepMind在2020年春季向CASP提交了他們的預測結果,接下來是等待最終結果。
震驚世界
到初夏時,莫爾特收到了一封來自CASP評估員的電子郵件,寫著「看看這個,真是令人印象深刻」。郵件的附件是一個AlphaFold2預測的蛋白質結構。莫爾特非常驚訝,但他認為這只是一次偶然的成功。
緊接著,他收到了一封又一封這樣的電子郵件。 「這很不尋常,」他回憶起當時的想法。有3個、4個甚至一大堆近乎完美的蛋白質預測結構,而它們全部來自AlphaFold2。到夏末時,莫爾特說,“我們迅速意識到,有一些極其超乎想像的事情發生了。”
CASP評估員會將每個提交的蛋白質預測結構與相對應的、經過實驗獲得併驗證的結構進行比較,給予評分。滿分為100分,意味著預測的結構與實際結構中的每個原子都能完美匹配。莫爾特一直認為,任何超過90分的結果都能顯示演算法已經有效解決了蛋白質的結構預測問題。 AlphaFold2預測的大多數結構都已經達到甚至超過了90分。會議召開的前幾個月,莫爾特打電話告訴了江珀這個消息。 “我激動得爆了粗口,”江珀回憶道,“妻子當時還問我是否還好。”
2020年12月,新冠疫情爆發不足一年之際,江珀在CASP的視訊會議上展示了AlphaFold2。和其他與會者一樣,瓊斯在家裡觀看了會議。 “我完全留在那裡……看著一切徐徐展開,”他說,“我沒有發洩情緒的途徑,因為同事們都不在身邊……我們都處於疫情防控中,哪兒也去不了。”
對於任何不是ANN專家的人來說,其中的概念聽起來會很複雜。不過即便如此,結論卻很明確:DeepMind已經解決了蛋白質的結構預測問題,他們所發展的AlphaFold2能夠基於蛋白質的胺基酸序列來準確預測其結構。 「唉,我最喜歡的課題完蛋了,」瓊斯回憶道,「DeepMind殺死了比賽,一切都結束了。」多年以來,阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)一直向CASP提交未發表的蛋白質結構的實驗結果以供比賽使用。當他看到AlphaFold2預測的、他的研究團隊辛苦獲得的一個蛋白質結構時,他心想:「完了。」AlphaFold2完全正確地預測了該蛋白質的結構。在疫情防治期間,獨自在家的科學家們一致認為蛋白質科學的世界至此永遠改變了。當他們展望這片新的領域時,心中只有一個問題:接下來該怎麼辦?
從預測到創造
結構生物學家突然陷入了混亂。 “一開始,許多人進行了深刻的反思”,西爾維奧·托薩托(Silvio Tosatto)說道,他從全球蛋白質結構預測比賽(CASP)的早期就開始參加這項比賽。一些結構生物學家擔心,他們的工作可能會變得過時。另一些人則表現出防禦性姿態,聲稱「阿爾法折疊2」(AlphaFold2)的預測結果並不準確。
這一刻,那些長期致力於解決蛋白質結構預測問題的計算生物學家感到苦樂參半,他們其中一些甚至已經研究了數十年。 CASP賽後,穆罕默德·庫雷希(Mohammed AlQuraishi)寫了一篇部落格文章,其中引用了一位與會者的話,他形容這感覺就像自己的孩子第一次離開家。
儘管對這種備受矚目的新工具感到不安,但許多科學家還是欣喜若狂。過去,那些不從事蛋白質結構研究的科學家,在進行涉及多學科問題的研究時,必須與結構生物學家合作,才能確定實驗中的蛋白質結構。現在,他們只需按幾個按鈕,只靠自己就能得到結構。
在媒體上,AlphaFold2被形容為將「改變一切」的嶄新的人工智慧(AI)突破。但科學家花了數月甚至數年的時間,才終於理清AlphaFold2的能力和限制。大約是在約翰·江珀(John Jumper)演講的6個月後,Google子公司“深度思維”(DeepMind)發表了他們的結果,並公開了AlphaFold2的底層代碼。生物學家開始嘗試使用這個工具。阿納斯塔西斯·佩拉基斯(Anastassis Perrakis)說:“AlphaFold2發布的第二天,我們就試著把它裝到了我們的圖形處理單元(GPU)伺服器上。”
珍妮特桑頓(Janet Thornton)表示:「我原本以為AlphaFold2會失敗,但它實際上取得了驚人的成功。」漸漸地,人們開始意識到,AlphaFold2不僅不是一種威脅,反而可能成為加速研究的催化劑。它沒有讓結構生物學家失業,反而給了他們一個新的工具,讓他們更好地完成工作。海倫‧沃爾登(Helen Walden)說:「如果你只是把結構生物學家看作解析蛋白質結構的技術專家,那麼是的,結構生物學家當然會失業。」但這樣說就好比認為,人類基因組計畫讓基因組學家變得多餘了,因為他們不再能發表解析單一基因序列的論文了。
在許多情況下,結構生物學家的目標是透過研究蛋白質的結構來發現其功能。有了AlphaFold2,他們就能基於這個工具在幾分鐘內產生的蛋白質結構,提出關於蛋白質功能的假設,而不必事先透過數月甚至數年的實驗來解析結構。保羅·亞當斯(Paul Adams)說:“它在許多方面都推動結構生物學朝著更好的方向發展,這並非一件壞事,反而會讓這個研究領域變得更加令人興奮。”
然而,AlphaFold2並未像某些人預測的那樣立即帶來各種新藥。研究人員很快就了解到,這個工具也有其限制:AlphaFold2的預測並不完美。佩拉基斯說,它預測的結果仍需通過實驗驗證,但你「可以更快地開始具體結構的研究」。現在,當他的學生開始一個新主題時,他們會先使用AlphaFold2預測特定蛋白質的結構,然後再用實驗驗證。
佩拉基斯認為,他和其他研究人員仍會在一定程度上繼續使用X射線晶體學。但是,為了得到初始的蛋白質結構,許多人已經開始將深度學習預測的蛋白質結構與先進的電子顯微鏡技術(例如冷凍電子顯微術)結合。冷凍電子顯微術(cryo-EM)又稱為冷凍電鏡術,是一種用於分析快速冷凍的含水生物樣品的透射電鏡成像技術,透過電子轟擊樣品進行分析。將這兩種技術結合後,研究人員就能迅速進行蛋白質功能的研究,專注於研究更有趣的科學問題。庫雷希表示,AlphaFold2「極大推動了」冷凍電子顯微術的應用。
轉變已經開始了。 2022年6月,《科學》(Science)的一期特刊揭示了人類核孔複合體近原子水平分辨率的結構。對於這個由30種不同蛋白質組成的龐大而複雜的蛋白質複合體,其結構解析幾十年來一直是生物學中的一個難題。這群科學家使用AlphaFold2的預測結果,填補了核孔複合體中未能用冷凍電子顯微術解析的部分。江珀表示,當他讀到這篇論文,看到其他科學家利用AlphaFold2取得了生物學上的突破,就是在那一刻,他意識到「AlphaFold2確實非常重要」。
在過去三年中,類似核孔複合體這樣的發現點綴了蛋白質科學領域的發展歷程。 AlphaFold2已經預測了許多蛋白質結構,它們幫助科學家研究疾病並創造了新的藥物傳遞工具。美國博德研究所(Broad Institute)的分子生物學家張鋒說:「它對我們非常有幫助。」他用AlphaFold2設計了一種分子注射器,用於將藥物遞送到人體細胞中。除了藥物遞送,了解蛋白質的結構也有助於藥物開發:例如,如果研究人員能找到緊密貼合標靶蛋白形狀並能改變其功能的分子,它就有潛力作為藥物。儘管一些研究表明,AlphaFold2的預測結果並不如實驗所得到的結構有用,但也有研究顯示AlphaFold2的預測結果同樣有效。總的來看,AI工具對藥物發現的全面影響仍在逐漸顯現。
然而,在預測已知蛋白質的結構和功能之外,一些生物學家已經在嘗試將AlphaFold2用於其他用途。他們轉而用人工智慧設計自然界中不存在的蛋白質,這項技術對設計新型藥物至關重要。
開拓新領域
在觀看了江珀在2020年CASP會議上的演講後,戴維·貝克(David Baker)幾乎立即就回到了他的羅塞塔(Rosetta)演算法工作中。當時,Google尚未公開AlphaFold2的底層原始碼。即便如此,“我們開始嘗試他們介紹的一些想法”,貝克說。就在GoogleDeepMind在《自然》(Nature)上發表AlphaFold2的同一天,貝克和團隊宣布了AlphaFold2的競爭對手「羅塞塔折疊」(RoseTTAFold),它也有極高的蛋白質結構預測精確度。 RoseTTAFold同樣使用深度學習來預測蛋白質結構,但其底層架構與AlphaFold2非常不同。托薩託說:“科學想法一旦被提出,人們就可能對其進行逆向工程並嘗試在其基礎上進行構建,至少對那些擁有足夠資源的人而言是這樣。”
RoseTTAFold並不孤單。包括美國元宇宙(Meta)公司在內的其他AlphaFold2競爭者也開發了自己的演算法,用於解決蛋白質結構預測或相關問題。一些公司已經擴展到了蛋白質以外的領域,例如拉斐爾·湯曾德(Raphael Townshend)所在的美國生物科技新創公司「原子人工智慧」(Atomic AI),就使用深度學習來解析RNA的結構。然而,在單分子結構預測領域,目前還沒有演算法能達到AlphaFold2的精確度,桑頓說。 “我相信他們最終會做到這種精度,但我認為要再現另一個那樣的’AlphaFold2時刻’將會非常困難。”
CASP建立了一種卓有成效的競爭傳統。至少在大眾眼中,貝克和江珀將這種競爭延續了下去。貝克說:「他們可能覺得我在與他們競爭,但我覺得他們只是啟發了我們。」江珀則對此表示歡迎,他說:「讓人們在這個科學基礎上繼續開發是非常重要的。如果AlphaFold2沒有知識上的傳承,那對我來說將是一件很悲哀的事。
貝克已經在發展他的計畫傳承,重點關注蛋白質科學的新前沿領域——蛋白質設計。先前,生物學家受限於研究自然界中已經存在的蛋白質,但在貝克設想的科學中,他們可以設計全新的蛋白質,這些人為設計的蛋白質可以專門用於利用陽光、分解塑膠或作為藥物和疫苗的基礎。
荷蘭胡布雷赫特研究所(Hubrecht Institute)的結構生物學家丹尼·薩托(Danny Sahtoe)曾在貝克的指導下完成博士後研究,他說:「對於目前自然界中不同類型的蛋白質而言,其結構或形狀的數量相當有限。
現任美國華盛頓大學(University of Washington)蛋白質設計研究所(Institute for Protein Design)所長的貝克說,蛋白質設計本質上是「蛋白質結構預測的逆向問題」。使用蛋白質結構預測演算法時,科學家會將胺基酸序列輸入深度學習演算法,並讓它輸出蛋白質結構。而蛋白質設計則不同,蛋白質設計師是將特定的蛋白質結構輸入演算法,然後讓它輸出胺基酸序列。緊接著,他們會基於模型輸出的序列,再在實驗室中建構出設計的蛋白質。
AlphaFold2和RoseTTAFold本身無法產生這些序列,因為它們的程式邏輯執行的是相反的操作。但貝克基於RoseTTAFold的神經架構,創建了一個專門用於設計蛋白質的迭代版本,名為「RoseTTAFold擴散」(RoseTTAFold diffusion),簡稱「RF擴散」。薩托說,蛋白質設計領域已經存在了很長時間,但深度學習加速了這一進程,它使切實可行的蛋白質電腦模型的設計過程變得「極其快速」。過去,訓練有素的蛋白質設計師需要數週或數月的時間,才能創造一個新蛋白質的骨架。而現在,他們幾天之內甚至一夜之間就能完成。
貝克也更新了Foldit遊戲,將他的執念融入其中:玩家不再是建構蛋白質結構,而是設計蛋白質。這項嘗試確實富有成效。基於一些玩家設計的蛋白質,貝克實驗室已經撰寫了許多論文。而且一名世界頂尖Foldit玩家如今正就讀華盛頓大學,是貝克一位同事的研究生。
貝克說:「我們真的理解蛋白質的折疊過程嗎?如果我們設計出能折疊成新結構的新序列,那就表明我們對蛋白質折疊有了相當多的了解。從某種意義上說,你也可以將它看作蛋白質折疊問題的一種解決方案。
相信與懷疑
AlphaFold2的成功無疑改變了生物學家對人工智慧的態度。長期以來,許多實驗生物學家並不相信計算方法,他們覺得一些機器學習方法可能會讓數據看起來很好,但實際使用時並非如此。然而,GoogleDeepMind的成功明確證明了“你可以用它進行嚴肅的科學研究”,庫雷希說。現在,任何對這件事的懷疑都會被人反問:「那AlphaFold2呢?」許錦波,那位曾推進卷積神經網路研究的計算生物學家說:「現在,生物學家開始相信我們的預測結果。
這種信任的建立要歸功於AlphaFold2平台的一個特性:它不僅能產生蛋白質的三維模型,還會自我評估預測的準確性,對結構中的每個部分給出從0到100的置信度評分。 2022年7月,GoogleDeepMind發布了2.18億種蛋白質的結構預測,幾乎涵蓋了世界上所有已知蛋白質。之後,亞當斯便決定開始分析AlphaFold2的自我評估結果。他將這些預測的結構與實驗解析的蛋白質結構進行比較,並獨立評估它們的準確性。
亞當斯說:「好消息是,當AlphaFold2認為自己正確的時候,它通常非常正確。當它認為自己不對時,它通常也確實不對。」然而,在AlphaFold2對其預測結果「非常有信心」(置信度評分不低於90分,滿分為100分)的情況下,大約在10%的例子中,預測結果與實驗結果不一致。
AI系統似乎具有一定的自我懷疑能力,這可能會導致人們過度依賴其結論。大多數生物學家將AlphaFold2視為一種預測工具,但也有一些人走得太遠了。一些過去與結構生物學家合作的細胞生物學家和生物化學家,甚至用AlphaFold2取代了結構生物學家,並將其預測視為真理。佩拉基斯說,有些科學家在發表論文中所展示的蛋白質結構顯然是錯誤的,任何結構生物學家都能看出來。 「但他們會說:『好吧,那是AlphaFold2預測的結構。』」美國國立衛生研究院(NIH)的研究員勞倫·波特(Lauren Porter)表示:「有些人對這些深度學習模式的能力過於自信了。 我們應該盡可能多地使用這些深度學習模型,但也需要以謹慎和謙遜的態度來對待它們。
瓊斯(David Jones)聽說,有些從事計算解析蛋白質結構的科學家在爭取資金時遇到了困難。他說:「你知道的,普遍的看法是,DeepMind已經做到了,那為什麼你還在做這個方向?」但瓊斯認為,這項工作仍然是必要的,因為AlphaFold2並非無懈可擊,他說:「(距離真正解決該領域的所有問題)依舊存在非常大的差距,有些事情它顯然做不到。
雖然AlphaFold2在預測小型、簡單蛋白質的結構方面表現出色,但在預測包含多個組成部分的蛋白質複合體時,其準確性仍然較低。它也無法考慮蛋白質的環境因素或蛋白質與其他分子的結合,而這些因素會在自然狀態下改變蛋白質的形狀。例如,有時蛋白質需要被特定的離子、鹽或金屬包圍才能正確折疊。沃爾登說:「目前,AlphaFold2在理解蛋白質所處環境方面還有些問題。」她的團隊已經透過實驗解析了幾個AlphaFold2無法預測的結構。
自然界中還存在幾類動態的蛋白質,它們的功能十分重要,但AlphaFold2對它們的結構預測準確性較差。這些會發生形變的蛋白質,也被稱為折疊轉換蛋白質(fold-switching protein),它們的結構並不是靜態的,其形狀會在與其他分子相互作用時發生變化。即使是相同的胺基酸序列,有些蛋白質也會折疊成截然不同的形狀。波特說,折疊轉換蛋白質「挑戰了序列編碼單一結構的範式,因為它們顯然不只有一種結構」。與用於訓練DeepMind演算法的數十萬種靜態、單一結構的蛋白質相比,用於訓練的折疊轉換蛋白質只有大約100個例子,儘管肯定還有更多此類蛋白質存在。波特表示,“一般來說,這些演算法是為了預測單一折疊結構而設計的”,因此有這樣的表現也許並不令人意外。
還有一些蛋白質會像汽車專賣店外的充氣人偶一樣胡亂擺動。固有無序蛋白(IDP)或固有無序蛋白質區域缺乏穩定的結構,它們會不斷地搖擺和重新形成。丹麥哥本哈根大學(University of Copenhagen)的計算蛋白質生物物理學教授克雷斯滕·林多夫-拉森(Kresten Lindorff-Larsen)說:「它們在很多方面都被忽視了,僅僅是因為它們有點煩人。 AlphaFold2能預測某個區域可能是固有無序的,但它不能告訴你這種無序狀態具體是什麼樣的。
對江珀來說,AlphaFold2最讓他失望的點在於,它無法顯示兩種僅相差一個胺基酸(即點突變)的蛋白質之間的結構差異。他說,點突變“有時會對蛋白質的結構和功能產生相當顯著的影響,但AlphaFold2常常忽略這些差異”,它會為兩個序列產生相同的結構。 2023年9月,DeepMind發布了AlphaMissense,這是一種能預測此類點突變影響的深度學習演算法。它無法顯示結構上的變化,但會根據已知致病蛋白質中類似突變的訊息,告知使用者該突變是否可能導致蛋白質致病或出現功能障礙。
然而,就算AlphaFold2能夠完美預測所有蛋白質的結構,它仍然遠遠未達到模擬生命的程度。因為在細胞中,蛋白質從來就不是單獨行動的。
AlphaFold3誕生
細胞內部複雜而混亂。細胞的外膜包裹著細胞內的生化環境,這裡密集地擠滿了各種分子部件──蛋白質、訊號分子、信使RNA和細胞器等等。蛋白質彼此之間以及與其他分子相互結合,這會改變它們的形態與功能。
儘管AlphaFold2在預測單一蛋白質結構方面表現出色,但它並未幫助生物學家更深入地理解蛋白質在這種複雜天然環境中的表現。這正是該領域目前研究的方向。蛋白質科學領域的兩大人工智慧巨頭——GoogleDeepMind和貝克領導的蛋白質設計研究所,目前正在改進他們的深度學習演算法,用於預測蛋白質在與其他分子相互作用時的結構。 2024年春天,兩個機構都發表了論文,描述了他們在該領域的類似進展。他們更新的演算法——AlphaFold3和RoseTTAFold All-Atom,使他們能夠預測蛋白質與蛋白質、DNA、RNA和其他小分子結合時的結構。
生物學家才剛開始測試這些更新。庫雷希表示,到目前為止,AlphaFold3的準確性遠高於RoseTTAFold All-Atom,但這次並不像「AlphaFold2時刻」那樣是一次巨大的飛躍。對於預測一些大分子,例如RNA的結構,它的準確性仍低於其他基於物理的系統和實驗方法。
即便如此,這些新演算法仍朝著正確的方向邁出了一步。蛋白質與其他分子之間的相互作用對其在細胞中的功能至關重要。為了開發出能與蛋白質結合並按需改變其活性的藥物,研究人員需要了解兩者形成的複合體的結構。不過亞當斯表示,兩種演算法都不太可能在短期內帶來新藥。他說:“這兩種方法的準確性仍然有限,但它們都在原始基礎上有了巨大進步。”
DeepMind的新產品還有一個重大變化。 AlphaFold2的底層程式碼是開源的,因此其他研究人員可以研究演算法並將其改造後用於自己的專案。然而,Google目前仍選擇將AlphaFold3的原始碼作為商業機密保護起來,而不是公開分享。庫雷希說:“至少目前,沒有人能像使用AlphaFold2那樣運行和使用AlphaFold3。”
早在AlphaFold3發布之前,研究人員就已經在測試AlphaFold2,看看它能否提供有關蛋白質在不同構像下的有用資訊。美國布朗大學(Brown University)的化學與物理學副教授布倫達·魯本斯坦(Brenda Rubenstein)對激酶很感興趣,這是一類能活化其他蛋白質的蛋白質。具體來說,她想了解一種會導致癌症的激酶的作用機制,以便她可以針對這種激酶開發更精確的藥物。魯本斯坦的實驗室使用了一種基於物理的方法,透過牛頓定律映射原子的三維座標來對激酶的結構建模。這項研究已經耗費了兩年半的時間。
「大約一年前,我們說:能不能更快完成這個過程?」魯本斯坦說。於是,他們嘗試以一種新的方式使用AlphaFold2。透過給演算法輸入相關蛋白質的數據,她發現AlphaFold2能以超過80%的準確性,預測該激酶在不同構像下的結構。庫雷希說,“如果用正確的方式使用AlphaFold2,你就能讓它輸出多個不同構象”,魯本斯坦的實驗室是發現這一點的幾個實驗室之一,“這件事非常振奮人心」。
庫雷希希望,深度學習能在2040年前實現模擬整個細胞及其內部的所有結構和動力學。然而,要實現這一目標,需要在實驗和計算兩個方面都取得飛躍進展。
捷足先登
對許多生物學家而言,AlphaFold2是他們一直在等待的突破。 CASP的目標一直都是:建立能根據序列預測蛋白質結構的計算工具。儘管如此,許多人忍不住要問:在如此多專家已經奮鬥了幾十年的情況下,為何一個相對較新的團隊卻能破解蛋白質的代碼呢?不可否認,GoogleDeepMind的電腦和蛋白質科學家團隊為這個問題帶來了全新的見解。同時,蛋白質科學的土壤變得肥沃,已經準備好迎接深度學習的革命,庫雷希說道,「這些事情不是憑空出現的」。
在2020年CASP賽前,許多研究人員都已經預料到,蛋白質結構預測的突破會透過人工智慧實現。湯曾德說:「一切都朝著那個方向發展。」但他們沒想到這種突破會來自一家市值數十億美元的科技公司,也沒想到它會來得這麼快。有些人認為,AlphaFold2並不是什麼新的科學成就,不過是巧妙的工程設計。有些人對貝克的演算法沒能奪冠感到驚訝,而有些人則並不意外,因為GoogleDeepMind擁有無與倫比的資源。桑頓說,每年大約有100個實驗室參加CASP,儘管他們已經開始採用AI技術,但他們「可能沒有DeepMind那樣的AI專業知識,也沒有那樣的算力,而DeepMind基本上可以使用無限的算力」。
桑頓也推測,Google在蛋白質科學方面缺乏專業知識,反而可能釋放了他們的創造力。她表示,“他們心無旁騖”,專注於建立一個出色的人工神經網路。而蛋白質生物學家背負了許多包袱:在開發AI工具時,他們總希望能捕捉到蛋白質折疊過程中原子層面的分子物理和化學過程。 DeepMind則採用了不同的方法:把胺基酸序列資料轉化為三維結構,至於如何實現,這並不重要。沃爾登表示:「他們並沒有試圖解決蛋白質折疊問題,我想這是先前許多預測方法嘗試在做的事情。相反,他們實際上只是簡單粗暴地將原子的最終位置映射到空間中。有趣的是,他們可能正是因此解決了蛋白質結構預測問題。
對一些生物學家而言,這種方法沒能解決蛋白質折疊問題。從結構生物學的早期階段開始,研究人員就希望能了解胺基酸鏈折疊成蛋白質這個過程背後的規則。隨著AlphaFold2的出現,大多數生物學家認為,結構預測問題已經解決。然而,蛋白質折疊問題並未解決。艾倫·鐘(Ellen Zhong)說:「現在,你只是有了這個黑箱,它能以某種方式告訴你折疊後的狀態,卻無法告訴你究竟如何到達那個狀態。」布朗大學的計算機科學家邁克爾·利特曼(Michael Littman)則表示,“這不是科學家解決問題的方式。”
美國約翰霍普金斯大學(Johns Hopkins University)的生物物理學榮譽退休教授喬治羅斯(George Rose)說,這聽起來可能像是「語義上的爭論,但當然不是這樣」。 AlphaFold2可以基於它對數十萬個蛋白質結構的分析,識別出給定氨基酸序列可能的折疊模式。但它無法告訴科學家關於蛋白質折疊過程的任何資訊。羅斯說:「對許多人而言,你並不需要知道這些,他們也不在乎。但科學,至少在過去500年左右的時間裡,它一直致力於理解事情的發生過程。」羅斯認為,要理解以蛋白質為基礎的生命動態、機制、功能和本質,你需要一個完整的故事,而這正是深度學習演算法無法告訴我們的。
對約翰·莫爾特(John Moult)而言,機器做到了一些自己無法理解的事情,這沒什麼關係。他說:「我們都習慣了讓機器做我們做不到的事情。比如說,我沒辦法跑得像我的車那麼快。」而對於那些試圖研究蛋白質,並且只需要大致了解其外觀的分子生物學家來說,如何達成這個目標也不重要。
波特表示:「但在我們真正了解蛋白質折疊的原理之前,我們永遠不會有100%可靠的預測方法。我們必須了解基本的物理原理,才能做出最有依據的預測。」庫雷希則說:“我們一直在調整目標。我確實認為,核心問題已經解決了。所以現在的重點是,接下來會發生什麼。”
即使生物學家還在繼續爭論這些主題,但對於這個無疑已經改變的領域,其他人已經開始展望未來,同時也回顧了其近來的發展歷程。有時,佩拉基斯會對過去的工作方式產生一陣懷舊之情。 2022年,他的團隊以X射線晶體學解析了一種參與微管(為細胞提供結構支撐的巨型棒狀結構)修飾的酵素的結構。佩拉基斯說:「我意識到,我再也不會那樣做了。過去,在工作了幾個月之後,第一次看到結構被解析出來的時候,會讓人有一種非常特別的滿足感。
AlphaFold2並沒有讓那些實驗變得過時,相反,它凸顯了這些實驗的必要性。它將歷史上截然不同的兩個學科連結在了一起,開啟了一場新的、令人興奮的對話。
新世界
波特感嘆道,70年前,人們認為蛋白質是一種膠狀物質。 “再看看現在我們能看到什麼”,無論是自然界中存在的還是人為設計的蛋白質,這樣一個龐大的蛋白質世界,在我們眼中變成了一個又一個結構。佩拉基斯表示,「相較於AlphaFold誕生之前,如今的蛋白質生物學領域變得更加令人興奮了。」這種興奮來自許多方面,包括基於結構的藥物發現可能會重新振興,科學家提出假設的速度會變快,以及它為理解細胞內複雜的相互作用帶來了希望。庫雷希說:「這種感覺就像是當年基因組學的那場革命。」對於生物學家,無論是實驗科學家還是在電腦前運行程式的計算科學家,這裡的數據都太多太多了,他們才剛開始弄清楚如何處理這些數據。
但正如世界各地由人工智慧帶來的其他突破一樣,這項突破也可能存在上限。 AlphaFold2的成功建立在訓練資料的基礎上,也就是那些由耐心的實驗人員精心解析的數十萬個蛋白質結構。儘管AlphaFold3和相關演算法在預測分子複合體結構方面已經取得了一些成功,但其準確性仍落後於它的前輩在單一蛋白質結構上的表現,部分原因是可用的訓練數據顯著減少了。
桑頓說,蛋白質結構預測問題“幾乎是AI解決方案的完美案例”,因為演算法可以在數十萬個以統一方式收集的蛋白質結構數據上進行訓練。然而,蛋白質資料庫(PDB)可能只是生物學中有組織的資料共享的特殊情況。如果沒有高品質的資料用於訓練演算法,它們也無法做出準確的預測。江珀表示:“我們很幸運,在我們遇到這個問題時,它正好已經到了可以解決的時機。”
沒人知道深度學習在解決蛋白質結構預測問題的成功能否延續到其他科學領域,即使只是生物學的其他領域。但像庫雷希這樣的人對此持樂觀態度,他說:「蛋白質結構預測真的只是冰山一角。」例如,化學家也需要進行成本高昂的計算。庫雷希說,借助深度學習,這些計算的速度已經比以前快了一百萬倍。
人工智慧顯然能推動解決特定類型的科學問題,但在推進知識進展方面,它對科學家的幫助可能是有限的。庫雷希表示,“歷史上,科學一直是關乎理解自然的”,也就是理解生命和宇宙背後的過程。深度學習工具揭示的是解決方案而非過程。如果科學透過這些工具向前發展,那它還是真正的科學嗎?庫雷希繼續說,「如果你能治癒癌症,你還會在乎所使用的療法是如何起效的嗎?未來幾年,這將是我們會不斷爭論的問題。」如果許多研究人員決定放棄理解自然的過程,那麼人工智慧不僅會改變科學,它也會改變科學家。
同時,CASP的組織者正面臨一個不同的問題:如何延續他們的競賽和會議。 AlphaFold2是CASP的產物,它解決了人們組織這個會議原本要解決的主要問題。莫爾特說:「如今的CASP到底是為了什麼?對我們而言,這是一個巨大的衝擊。」2022年,CASP會議在土耳其安塔利亞市舉行。儘管GoogleDeepMind並未參賽,但該團隊的存在感依然很強。瓊斯說:「無非就是人們使用了或多或少的AlphaFold。」他表示,從這個意義上說,Google還是贏了。
如今,一些研究人員對參加CASP的興趣也減弱了。許錦波說:「一看到那個結果,我就轉變了研究方向。」也有一些人仍在繼續改進自己的演算法。例如瓊斯仍然涉足結構預測領域,但這對現在的他來說更多只是一種愛好。諸如庫雷希和貝克等其他人,則在繼續開發新的結構預測和設計演算法。在與一家市值數十億美元的公司競爭的前景面前,他們毫不畏懼。
莫爾特和會議的組織者們也在努力改進。下一輪CASP已於2024年5月開放報名。他希望深度學習能征服結構生物學的更多方面,例如RNA或生物分子複合體。莫爾特說:“這種方法已經在蛋白質結構預測這個問題上奏效了,而結構生物學領域還有許多其他相關問題。”
下次CASP會議將於2024年12月在加勒比海的碧藍海水旁舉行。屆時,微風和煦,或許討論的氛圍也會十分和睦。曾經激烈的跺腳聲早已平息,至少表面上是如此。今年的競賽會是什麼樣子,誰也無法預測。但如果從過去幾屆CASP中尋找線索的話,莫爾特知道,他只能期待一件事,「那就是驚喜」。
本文選自《環球科學》10月刊專題報導「AI重塑結構生物學」。