諾貝爾化學獎是AI for Science 物理獎是Science for AI
2024年又一個諾貝爾獎給了AI!這次是化學獎!一半歸華盛頓大學的戴維·貝克(David Baker),“因其在蛋白質計算設計方面的貢獻”;另一半歸谷歌DeepMind的戴米斯·哈薩比斯(Demis Hassabis)和約翰·M·江珀(John M.Jumper),「因其在蛋白質結構預測方面的貢獻」。
你相信昨天獲獎的辛頓是物理學家,今天獲獎的哈薩比斯是化學家嗎?
確切地說,這次是關於蛋白質——生命中精巧的化學工具。貝克完成了一項幾乎不可能的壯舉:建構全新種類的蛋白質。哈薩克和江珀發展了人工智慧模型,解決了一個長達50年的難題:預測蛋白質的複雜結構。這些發現具有巨大潛力,應用前景無限廣闊。
生命的多樣性證明了蛋白質作為化學工具的驚人能力。它們控制和驅動著構成生命基礎的所有化學反應。蛋白質還可以作為荷爾蒙、信號物質、抗體以及不同組織的構建塊。
「今年獲得認可的發現之一涉及構建令人驚嘆的蛋白質。另一個則是實現了一個50年的夢想:從氨基酸序列預測蛋白質結構。這兩項發現都開啟了廣闊的可能性。」諾貝爾化學獎評審團主席海納林克說。
蛋白質通常由20種不同的氨基酸組成,這些氨基酸可以被描述為生命的「樂高積木」。 2003年,貝克成功利用這些構建塊設計出了一種與其他蛋白質完全不同的新蛋白質。從那時起,他的研究團隊不斷創造出富有想像力的蛋白質,包括可用作藥物、疫苗、奈米材料和微型感測器的蛋白質。
第二項發現涉及蛋白質結構的預測。在蛋白質中,胺基酸以長鏈的形式連接在一起,並折疊形成三維結構,這種結構對蛋白質的功能起著決定性作用。自1970年代以來,研究人員一直試圖從胺基酸序列預測蛋白質結構,但這項工作出了名的困難。然而,四年前出現了一個驚人的突破。
2020年,哈薩比斯和江珀推出了一個名為AlphaFold2的人工智慧模式。借助該模型,他們能夠預測研究人員已確定的近2億種蛋白質的結構。自突破以來,來自190個國家的超過200萬人使用了AlphaFold2。在眾多科學應用中,研究人員現在可以更好地理解抗生素抗藥性,並創建可以分解塑膠的酵素的圖像。
沒有蛋白質,生命就無法存在。現在我們能夠預測蛋白質結構並設計自己的蛋白質,這為人類帶來了最大的福祉。
繼昨天諾貝爾物理獎頒發給為AI基礎理論做出貢獻的霍普菲爾德和辛頓之後,化學獎頒發給用AI設計和預測蛋白質結構的三位非典型的「化學家」。有人說物理學不存在了,也有人說化學在摩擦AI的熱點。這些都不對。它說明的是AI正在為科學發現帶來的深刻變革:物理獎是Science for AI,而化學獎則是AI for Science,它們將引領科學前沿。
下面,我們詳細介紹下這次諾貝爾化學獎的奧秘:
蛋白質可以由數十種氨基酸到數千種氨基酸組成

這是一張教育性很強的示意圖,清楚地展示了從基本構建塊(氨基酸)到最終產物(蛋白質)的概念。
左側是一個環形排列,顯示了20種基本氨基酸(Amino Acids)的名稱:
包括甘胺酸(Glycine);
麩胺酸(Glutamic acid);
麩醯胺酸(Glutamine);
半胱氨酸(Cysteine);
天門冬胺酸(Aspartic acid);
等等……
右側展示了從胺基酸到蛋白質的形成過程:
胺基酸首先以「串珠」的方式連接成一條鏈(STRING OF AMINO ACIDS);
這條胺基酸鏈最終會折疊成特定的三維結構,形成功能性蛋白質(PROTEIN);
這張圖很好地詮釋了2024年諾貝爾化學獎的兩個核心發現:
如何利用這20種胺基酸設計新的蛋白質(David Baker的工作);
如何預測氨基酸鏈最終會折疊成什麼樣的三維結構(Hassabis和Jumper的AlphaFold2的工作)。
AlphaFold2如何運作?

這張圖很好地展示了AlphaFold2如何將生物學知識、演化資訊和深度學習技術結合起來,解決了困擾科學界50年的蛋白質結構預測問題。
首先,作為AlphaFold2開發的一部分,這個AI模型已經在所有已知的胺基酸序列和已確定的蛋白質結構上進行了訓練。
工作流程分為四個主要步驟:
1. 資料輸入和資料庫搜索
將一個結構未知的胺基酸序列輸入AlphaFold2。
系統會搜尋資料庫中類似的胺基酸序列和蛋白質結構。
2. 序列分析
AI模型會對比所有相似的胺基酸序列(通常來自不同物種)。
研究在演化過程中哪些部分被保留下來。
AlphaFold2探討胺基酸在三維蛋白質結構中如何相互作用:
帶電荷的胺基酸會相互吸引;
疏水性氨基酸會聚集在一起。
產生一個距離圖,估計胺基酸之間在結構中的距離。
3. AI分析
使用迭代過程,AlphaFold2不斷完善序列分析與距離圖。
AI模型使用稱為轉換器(transformers)的神經網路。
這些網路能夠識別重要元素並利用第一步獲得的其他蛋白質數據。
4. 假設結構生成
AlphaFold2將所有胺基酸拼接成一個整體。
透過三個循環週期測試不同的路徑。
最終得出一個特定結構。
AI模型計算這個結構不同部分與實際情況相符的機率。
圖中也展示了一些重要的視覺化內容:
序列分析中的共同演化模式。
距離圖顯示胺基酸之間的空間關係。
神經網路的示意圖。
多個循環週期如何逐步完善最終結構。
第一種人類設計的蛋白質結構

這個結構的獨特性與歷史意義在於:
1. 全新設計
這是第一個完全從頭設計(de novo design)的蛋白質結構。
不是基於任何現有自然蛋白質的修改或模仿。
David Baker團隊在2003年設計了這個結構,開創了人工蛋白質設計的新紀元。
2. 結構特點
它包含了新穎的α螺旋和β折疊的組合方式,這種排列在自然界中從未被發現過。
雖然使用了常見的二級結構元素(α螺旋和β折疊),但它們的三維空間排布是全新的。
3. 突破意義
證明了我們可以設計出自然界中不存在的蛋白質結構。
顯示蛋白質設計不必局限於模仿自然蛋白質。
開啟了人工蛋白質設計的無限可能性。
4. 方法學意義
驗證了電腦輔助蛋白質設計的可行性。
為後續更複雜的蛋白質設計奠定了基礎。
建立了從理論設計到實際合成的完整工作流程。
這個成就相當於在蛋白質設計領域創造了第一個“人造元素”,就像門捷列夫週期表中的人工合成元素一樣,展示了人類不僅能夠理解自然,還能創造自然界中不存在的新事物。
使用貝克的Rosetta程序開發的蛋白質

這張圖展示了David Baker團隊在設計人工蛋白質方面的一些重要成果時間線:
2016年:新型奈米材料
展示了一個可以自發性連接多達120個蛋白質的複雜結構。
圖中顯示為一個大型球狀結構,由紫色和淺綠色的蛋白質單元組成。
2017年:芬太尼檢測蛋白質
設計出能夠結合芬太尼(一種鴉片類藥物)的蛋白質。
圖中綠色為蛋白質主體,紫色部分為結合芬太尼的區域。
這種蛋白質可用於環境中的芬太尼檢測。
2021年:流感疫苗奈米顆粒
黃色核心部分是奈米顆粒。
綠色外層是模仿流感病毒表面的蛋白質。
在動物模型中已經證明可以作為流感疫苗。
2022年:分子馬達蛋白質
設計出可以作為分子馬達運作的蛋白質。
圖中顯示為綠色的複雜結構。
2024年:幾何形狀蛋白質
設計出具有特定幾何形狀的蛋白質。
這些蛋白質可以根據外部影響改變形狀。
可用於製造微型感測器。
這張圖很好地展示了人工設計蛋白質領域的快速發展,從相對簡單的結構設計,到具有特定功能的蛋白質(如疫苗、感測器等),再到可以動態響應外界刺激的智慧蛋白質。這些進展體現了David Baker在計算蛋白質設計領域的傑出貢獻。
使用AlphaFold2預測的蛋白質結構

這張圖展示了使用AlphaFold2預測的三個重要蛋白質結構:
2022年:核孔複合體部分結構
圖中顯示為綠色環狀結構。
這是人體細胞中一個巨大的分子結構的一部分。
超過一千個蛋白質共同組成了一個穿過細胞核膜的孔道。
這個核孔對細胞核和細胞質之間的物質交換至關重要。
2022年:分解塑膠的天然酶
圖中顯示為綠色的單一蛋白質結構。
這種天然酵素能夠分解塑膠。
研究這種酵素的結構目的是設計出可用於塑膠回收的人工蛋白質。
這對解決全球塑膠污染問題具有重要意義。
2023年:引起抗生素抗藥性的細菌酶
圖中顯示為一個複雜的多彩結構,包含多個不同顏色的蛋白質亞基。
這是一種會導致細菌產生抗生素抗藥性的酵素。
了解這種酵素的結構對於尋找預防抗生素抗藥性的方法非常重要。
這對解決全球公共衛生面臨的抗生素抗藥性威脅具有重要意義。
這張圖很好地展示了AlphaFold2在預測複雜蛋白質結構方面的能力,以及這些結構預測對解決重要科學和社會問題的價值。從細胞基本生物學過程(核孔複合體),到環境問題(塑膠降解),再到醫學挑戰(抗生素抗藥性),都顯示了蛋白質結構預測的廣泛應用前景。