AI 正在引領一場新型科學革命
自20世紀50年代DNA被發現以來,生物學家一直試圖將基因序列的長度與一系列細胞成分和蛋白質合成過程聯繫起來,例如,包括為現在著名的mRNA疫苗助力的特定抗體的mRNA轉錄過程。儘管自DNA發現以來,在基因組測序和理解方面取得了一定進展,但仍缺失一個重要環節。生物學家缺乏一種僅使用未知蛋白質的DNA或RNA源序列就能準確有效地預測其三維形狀的方法。
在生物學中,結構決定功能。蛋白質在細胞中的作用取決於其形態。中空的圓柱形結構有利於形成良好的膜受體,而U型酶在峽灣狀空腔中催化化學反應。能夠預測甚至設計蛋白質結構對於人類疾病理解將是一個飛躍,並會為一系列疾病解鎖新的治療方法。
但70多年來,科學家們一直在使用令計算機不堪重負的慢方法,並且主要依靠自己的猜測來梳理蛋白質的結構。儘管生物學家知道構成每種蛋白質的每種氨基酸的DNA編碼長度,但他們缺乏一個可重複、可推廣的公式來解決所謂的“蛋白質折疊問題”。他們需要係統地了解任何一串氨基酸一旦連接起來,將如何折疊成三維形狀,從而解開浩瀚的蛋白質宇宙。
來源:DeepMind
2020年,Google的人工智能團隊DeepMind宣布其算法AlphaFold解決了蛋白質折疊問題。
起初,大多數人都對這一驚人的突破興奮不已,科學家們隨時準備測試這種新工具,也激發了一些人的興趣。這不就是幾年前推出AlphaGo,使其在中國戰略遊戲圍棋中擊敗世界冠軍的那家公司嗎?掌握一個比國際象棋更複雜的遊戲,雖然難度很大,但與蛋白質折疊問題相比,感覺微不足道。
但是AlphaFold通過一年一度的競賽證明了其科學勇氣,在該競賽中,生物學家團隊僅根據蛋白質的基因序列猜測蛋白質的結構。該算法遠遠超過了人類競爭對手,發布了預測最終形狀在一埃(單個原子的寬度)內的分數。不久之後,AlphaFold通過了第一次真實世界測試,正確預測了SARS-CoV-2“刺突”蛋白的形狀,該蛋白是病毒顯而易見的靶向疫苗的膜受體。
來源:《Nature》
AlphaFold的成功很快就變得不容忽視,科學家們開始在實驗室裡試用這種算法。到2021年,《科學》雜誌將AlphaFold的開源版本冠以“年度最佳方法”。生物化學家兼《科學》雜誌主編H. Holden Thorp在一篇社論中寫道:“蛋白質折疊方面的突破是有史以來在科學成就和未來研究方面最偉大的突破之一。”
今天,AlphaFold的預測非常準確,經過70多年的思索,蛋白質折疊問題被認為已經解決。雖然蛋白質折疊問題可能是迄今為止AI在科學領域最引人注目的成就,但AI正在許多科學領域悄然取得新發現。
通過加速發現過程並為科學家提供新的調查工具,AI也正在改變科學研究的方法。
這項技術升級了顯微鏡和基因組測序儀等研究支柱,為儀器增加了新的技術能力,使其功能更加強大。AI驅動的藥物設計和重力波探測器為科學家提供了探測和控制自然界的新工具。
在實驗室之外,AI還可以部署先進的仿真和推理系統,以開發真實世界的模型並使用它們測試假設。隨著科學方法的廣泛影響,AI正在通過突破性的發現、新技術和增強工具,以及提高科學過程速度和準確性的自動化方法,引發一場科學革命。
來源:AI輔助的超分辨率宇宙學模擬
除了蛋白質折疊問題以外,從宇宙學和化學到半導體設計和材料科學,AI在許多領域的發現證明了其科學價值。
例如,DeepMind的團隊設計了另一種計算分子的電子密度的算法,擊敗了科學家60年來一直依賴的快捷方法。了解給定分子的電子密度對於理解材料的物理和化學性質大有裨益。但由於電子受量子力學支配,計算特定電子的密度需要復雜的方程,很快演變成計算噩夢。相反,科學家們利用材料電子的平均密度作為引導,避開了困難的量子計算。然而,DeepMind的算法直接解決了量子方面的問題,並被證明比快捷方法更精確。
與蛋白質折疊問題類似,AI能夠超越科學家幾十年來沿用的方法,並解鎖了準確預測物理和化學性質的新方法。
AI對科學的影響在四個關鍵方面超越了該技術的新發現。
首先,AI可以快速閱讀科學文獻,從而了解科學的基本規則、事實和方程式,並幫助科學家管理淹沒各個領域的大量論文和數據。僅在2020年,就有10萬到18萬篇關於COVID-19的科學期刊發表。
儘管研究人員將重心放在與持續的全球大流行一樣緊迫的事情上是有道理的,但關於COVID-19的論文僅佔最大生物醫學數據庫總文章的4-6%左右。產生的論文和數據浪潮遠遠超出任何科學家的閱讀能力,使研究人員無法真正跟上各自領域的創新步伐。
這正是AI的用武之地。
例如,在藥物化學領域,Insilico公司正在進入完全由AI設計的藥物I期臨床試驗階段,該藥物旨在治療一種稱為特發性肺纖維化(IPF)的疾病。Insilico的算法通過閱讀醫學文獻來選擇疾病目標,以找到潛在的蛋白質、細胞或病原體進行精確定位。一旦選擇了目標,該算法就可以設計一種治療方法來治療疾病。Insilico開發了一個用於藥物發現的端到端AI平台,該平台可以自動掌握該領域的最新結果和數據,以便科學家能夠了解情況而不會不知所措。
來源:圖片由美國阿貢國家實驗室領導計算設施、可視化和數據分析組提供
其次,隨著儀器更加精密以及探索自然奧秘的逐步深入,科學家們需要面對海量數據。AI同樣可以在此方面大展身手。
阿貢國家實驗室(Argonne National Laboratory, ANL)的一組科學家研發了一種算法,該算法可以理解引力波,即愛因斯坦預測的時空連續體結構中的漣漪,但直到2015年才被發現。該算法在7分鐘內處理了一個月的數據量,提供了一種可加速、可擴展和可重複的引力波檢測方法。而且該算法還可以在標準圖形處理單元(GPU)上運行,研究人員無需使用專門設備收集和解釋引力波數據。
ANL數據科學與學習(DSL) 部門主管Ian Foster說:“這個項目讓我興奮不已,它展示瞭如何通過正確的工具,將人工智能方法自然地集成到科學家的工作流程中,讓他們更快更好地完成工作,增強而非取代人類智能。”借助人工智能,曾經的海量數據現在變成了加速科學發展步伐的可控信息流。
第三,AI一直在悄悄升級實驗室的一些長期支柱:顯微鏡和DNA測序儀。
在ANL,研究人員找到了一種方法來提升電子顯微鏡可檢索到的有關樣品的信息量,同時提高儀器的分辨率和靈敏度。不同於許多人在高中或大學生物課上熟悉的顯微鏡,因為電子顯微鏡不依賴可見光來構建圖像。相反,顧名思義,它們使用電子,這使它們能夠以比其他顯微鏡更高的分辨率和更精細的構造拍攝圖像。
ANL的研究人員設計了一種在電子顯微鏡上使用AI記錄相位數據的方法,該方法可以傳遞有關樣品物理和化學性質的關鍵信息,從而提高儀器的功率和容量。
與此類似,AI的另一個升級功能是在所謂的光場顯微鏡中發現的,它可以拍攝高清晰度的3D運動圖像。科學家通常需要幾天的時間來重建視頻,但有了AI後,處理這些運動中的高分辨率數據所需的時間縮短到幾秒鐘,而不會丟失分辨率或細節特徵。
DNA 測序儀是基因組時代的主力軍,也得到了AI的增強。今年早些時候,一組科學家利用AI將DNA測序所需時間減半,並希望很快再次減半。簡言之,人工智能正在升級最基本的科學工具。
來源:《Science》
最後,AI在實驗室中真正大放異彩的地方是模擬複雜系統,使其成為基礎科學研究中越來越標準的工具。
去年,研究人員通過在物理學、天文學、地質學和氣候科學等十個科學領域建立突破性的模擬實驗,展示了AI的多學科能力。
所有10個仿真器均由同一個稱為DENSE的深度神經網絡進行訓練,與其他方法相比,在保持準確性不變的前提下,仿真速度提高了10億倍之多。
至關重要的是,仿真器可用於解決“逆問題”,即研究人員知道結果但想找出哪些變量會導致輸出。AI擅長這種計算,並且可以很容易地找出通向特定答案的路徑。
雖然模擬很有用,研究人員也希望確保他們的模型在現實世界中有效。Google和三星這兩家領先的科技公司最近轉向AI來規劃其部分芯片的佈局。
Google得出的結論是,人工智能設計的芯片“對於所有關鍵指標,包括功耗、性能和芯片面積,都優於或可與人類生產的芯片相媲美”。更進一步,該公司使用AI來設計其下一代AI加速器(TPU是AI製造的芯片,而不是標準的CPU或GPU)。
同樣,三星依靠AI芯片設計軟件創建了Exynos,這是一種用於可穿戴產品和汽車的芯片。憑藉其高保真模擬,AI為科學家們提供了一種強大的工具,正在徹底改變他們對自然世界進行建模和實驗的方式。
來源:AI支持對COVID-19患者的快速診斷
對於AI的建模能力,沒有比COVID-19大流行更好的現實測試了。
首先,蛋白質折疊算法AlphaFold正確預測了重要的“刺突”蛋白質,展示了AI在未來的大流行中如何加速疫苗或療法的研發。但也許更令人印象深刻的是,在2020年夏天,日本科學家使用世界上最強大的超級計算機Fugaku來模擬COVID-19 在空氣中的傳播。
在深度神經網絡和數千個GPU的支持下,Fugaku向世界提供了病毒是通過空氣傳播的決定性證據,並說服WHO相應地改變其控制COVID-19的指導方針(例如,口罩、通風以及室內與室外活動的風險)。在現實世界中,AI通過在危機期間為全球緩解戰略提供信息來證明其價值。
除了做出新發現和為科學武庫添加新工具外,AI還可以發現數據中的模式,做出可測試的預測,並使用它們將新證據納入其模型,反映科學方法。
哲學家Karl Popper普及了這樣一種觀點,即科學是通過拋棄可證偽的假設而進步的,這些假設可以通過實驗進行檢驗並證明是錯誤的,而這種通過理論和實驗消除的過程是科學方法的一個標誌。
正如AI最近的一些突破所表明的那樣,該技術還產生了可以通過實驗測試的假設,並通過排除過程提供了一個嚴格且可證偽的答案。
DeepMind 的電子密度模型通過逼近科學過程並在預測和實驗之間迭代反饋,直到更好地掌握了量子計算,從而擊敗了研究人員。
AI通過在數千個實驗確定的蛋白質上測試其模型,細化猜測,並通過賦予更接近解決方案的分支更高權重來修剪神經網絡,從而解決了蛋白質折疊問題。研究人員構建了AlphaFold的開源版本之後,其他科學家可以利用該模型解開RNA結構如何折疊以及蛋白質如何結合在一起的謎團。
來源:端到端剛性對接的獨立SE(3)等變模型
總體而言,理解蛋白質的結合為強大的新藥研發打開了大門,因為細胞中的許多反應都是蛋白質協同作用的結果。這兩項進步開啟了治療設計的新時代,即利用端到端的AI管道定位疾病並設計精確的治療方法。
例如,華為人工智能實驗室的一個研究團隊使用該模型的一個版本自動生成了針對目標感染的抗體。從藥物設計到蛋白質結合,人工智能對自然界建模、分析和控制的能力只會繼續提高。
DeepMind的最新突破是將AI應用於控制和維持核聚變反應的問題。AI成功地控制了氫和氦的融合反應,為宇宙中的每顆恆星提供了創紀錄的能量,並發現了穩定保持等離子體的新形狀。這項實驗是朝著開發可行的聚變能源邁出的重要一步,聚變能源可以提供足夠的可再生能源,並為世界提供動力。
這個案例突出了AI在科學中最有希望的應用:它看到了我們無法看到的模式,並從不同但互補的角度分析了我們的環境。與研究人員合作並以科學方法為基礎,AI能夠利用支撐科學過程的迭代理論和實驗解決同樣的探索性問題。
科學可以最好地描述為對未知事物的探索。在這段旅程中,AI是一個夥伴,它以不同於我們的方式感知自然世界及其未探索的部分,開闢了理解和利用世界力量的新途徑。
正如索尼研究主管Hiroaki Kitano所描述的那樣,基於AI可模擬的假設、實驗和數據的自校正系統,科學發現是一個“搜索”問題。但在搜索過程中,AI不僅僅是科學家和合作夥伴手中的強大工具。這項技術也在改變科學過程,實現自動化並增加人們使用它可以完成的任務。人工智能正在引領一場新的科學革命,在多個領域取得了顯著突破,開啟了科學研究新途徑,加快了科學創新步伐。作為合作夥伴,AI將會與科學家共同探索更多無止境的科學前沿。