微軟開源新型蛋白質生成人工智能EvoDiff
蛋白質是在體內執行關鍵細胞功能的天然分子,也是所有疾病的組成部分。表徵蛋白質可以揭示疾病的機理,包括減緩或逆轉疾病的方法,而創造蛋白質則可以開發出全新的藥物和療法。
但是,從計算和人力資源的角度來看,目前在實驗室設計蛋白質的過程成本高昂。它需要提出一種能在體內執行特定任務的蛋白質結構,然後找到一種可能”折疊”到該結構中的蛋白質序列(組成蛋白質的氨基酸序列)。(蛋白質必須正確折疊成三維形狀,才能實現其預期功能)。
其實不一定非要這麼複雜。
本週,微軟公司推出了一個通用框架EvoDiff,該公司聲稱可以根據蛋白質序列生成”高保真”、”多樣化”的蛋白質。與其他蛋白質生成框架不同的是,EvoDiff不需要目標蛋白質的任何結構信息,省去了通常最費力的步驟。
微軟高級研究員凱文-楊(Kevin Yang)說,EvoDiff開源後,可用於創建新療法和給藥方法的酶,以及用於工業化學反應的新酶。
“我們的設想是,EvoDiff將擴展蛋白質工程的能力,使其超越結構-功能範式,走向可編程、序列優先的設計,”EvoDiff的共同創建者之一楊在接受TechCrunch電子郵件採訪時說。”通過EvoDiff,我們證明了我們可能實際上並不需要結構,而是’蛋白質序列就是你所需要的一切’,從而可控地設計出新的蛋白質”。
EvoDiff 框架的核心是一個640 參數模型,該模型是根據所有不同物種和功能類別蛋白質的數據訓練而成的。(參數”是人工智能模型從訓練數據中學到的部分,基本上定義了模型處理問題的技能–在本例中就是生成蛋白質)。訓練模型的數據來自序列比對的OpenFold 數據集和UniRef50,後者是UniProt 數據集的一個子集,UniProt 是由UniProt 聯盟維護的蛋白質序列和功能信息數據庫。
EvoDiff 是一種擴散模型,其結構類似於穩定擴散和DALL-E 2 等許多現代圖像生成模型。EvoDiff 可以學習如何從幾乎完全由噪聲組成的起始蛋白質中逐漸減去噪聲,從而使其緩慢地、一步一步地接近蛋白質序列。
EvoDiff 生成蛋白質的過程。
擴散模型已越來越多地應用於圖像生成以外的領域,從設計新穎的蛋白質(如EvoDiff),到創作音樂,甚至合成語音。
“如果說[從EvoDiff]中能得到什麼啟發的話,我認為那就是我們可以–也應該–通過序列來生成蛋白質,因為我們能夠實現通用性、規模和模塊化,”EvoDiff的另一位共同貢獻者、微軟高級研究員阿瓦-阿米尼(Ava Amini)通過電子郵件說。”我們的擴散框架讓我們有能力做到這一點,也讓我們能夠控制如何設計這些蛋白質,以實現特定的功能目標。”
對於阿米尼的觀點,EvoDiff 不僅能創造新蛋白質,還能填補現有蛋白質設計中的”空白”。例如,如果蛋白質的某一部分與另一種蛋白質結合,該模型就能圍繞這一部分生成符合一系列標準的蛋白質氨基酸序列。
由於EvoDiff 是在”序列空間”而非蛋白質結構中設計蛋白質,因此它還能合成最終無法折疊成最終三維結構的”無序蛋白質”。與正常功能的蛋白質一樣,無序蛋白質在生物學和疾病中發揮著重要作用,比如增強或降低其他蛋白質的活性。
需要指出的是,EvoDiff 背後的研究還沒有經過同行評審–至少目前還沒有。參與該項目的微軟數據科學家薩拉-阿拉姆達里(Sarah Al AMD ari)承認,在該框架投入商業應用之前,”還有很多擴展工作要做”。
阿拉姆達里通過電子郵件說:”這只是一個6.4億參數的模型,如果我們將其擴展到數十億參數,我們可能會看到生成質量的提高。雖然我們展示了一些粗粒度策略,但要實現更精細的控制,我們希望EvoDiff 以文本、化學信息或其他方式為條件,指定所需的功能。”
下一步,EvoDiff 團隊計劃測試該模型在實驗室中生成的蛋白質,以確定它們是否可行。如果可行,他們將開始下一代框架的工作。