人工智能技術可從零開始生成原始蛋白質
研究人員已經開發了一個人工智能係統,可以從頭開始生成人工酶。在實驗室實驗中,其中一些酶表現出與天然酶相媲美的功效,即使其人工創造的氨基酸序列大大偏離了任何已知的天然蛋白質。
該實驗表明,最初為閱讀和寫作語言文本而創建的自然語言處理人工智能可以掌握生物學的某些基本概念。這個被稱為ProGen的AI程序是由Salesforce Research開發的,它採用了下標預測法,從氨基酸序列中構建人工蛋白質。
科學家們說,這項新技術可能會變得比定向進化(諾貝爾獎得主的蛋白質設計技術)更強大,它將通過加快開發新的蛋白質來為有50年曆史的蛋白質工程領域注入活力,這些蛋白質幾乎可以用於從治療藥物到降解塑料的任何用途。
加州大學舊金山分校藥學院生物工程和治療科學教授詹姆斯-弗雷澤博士說:”人工設計的性能比受進化過程啟發的設計好得多,”他是這項工作的作者之一,該論文最近發表在《自然-生物技術》上。該論文的前一個版本自2021年7月以來一直在預印本服務器BiorXiv上提供,在那裡獲得了幾十次引用,然後才發表在同行評議的期刊上。
“語言模型正在學習進化的各個方面,但它與正常的進化過程不同,”弗雷澤說。”我們現在有能力調整這些屬性的生成,以達到特定的效果。例如,一種熱穩定性極強的酶或喜歡酸性環境或不會與其他蛋白質相互作用的酶。”
為了創建這個模型,科學家們只是將2.8億種不同的蛋白質的氨基酸序列輸入機器學習模型,並讓它消化了幾週的信息。然後,他們用五個溶菌酶家族的56000個序列以及關於這些蛋白質的一些背景信息對該模型進行了微調。
該模型迅速生成了一百萬個序列,研究小組根據它們與天然蛋白質序列的相似程度,以及人工智能蛋白質的基礎氨基酸”語法”和”語義”的自然程度,選擇了100個進行測試。
在這第一批由Tierra Biosciences公司進行體外篩選的100種蛋白質中,研究小組製作了五種人工蛋白質在細胞中進行測試,並將其活性與雞蛋白中發現的一種酶進行比較,這種酶被稱為雞蛋白溶菌酶(HEWL)。在人類的眼淚、唾液和牛奶中也有類似的溶菌酶,它們在那裡抵禦細菌和真菌。
其中兩種人工酶能夠分解細菌的細胞壁,其活性與HEWL相當,但它們的序列彼此之間只有大約18%的相同。這兩個序列與任何已知的蛋白質都有大約90%和70%的相同。
一個天然蛋白質只要有一個突變就能使其停止工作,但在另一輪篩選中,研究小組發現人工智能生成的酶顯示出活性,即使其序列中只有31.4%與任何已知的天然蛋白質相似。
人工智能甚至能夠學習酶的形狀,僅僅通過研究原始序列數據。通過X射線晶體學測量,人造蛋白質的原子結構看起來和它們應該的一樣,儘管其序列是以前從未見過的。
Salesforce Research在2020年開發了ProGen,基於他們的研究人員最初開發的一種用於生成英語文本的自然語言編程。他們從以前的工作中知道,人工智能係統可以教自己語法和單詞的含義,以及其他使寫作有條理的基本規則。
“當你用大量數據訓練基於序列的模型時,它們在學習結構和規則方面真的很強大,”Salesforce Research的人工智能研究主任、該論文的資深作者Nikhil Naik博士說。”它們可以學習哪些詞可以共同出現,也可以學習構成性。”
對於蛋白質,設計的選擇幾乎是無限的。就蛋白質而言,溶酶很小,最多有大約300個氨基酸。但是有20個可能的氨基酸,就有大量的(20300)可能的組合。這比古往今來的所有人類,乘以地球上的沙粒數量,再乘以宇宙中的原子數量還要多。
考慮到無限的可能性,該模型能夠如此容易地產生工作的酶,這一點非常了不起。
Profluent Bio公司的創始人、前Salesforce Research公司的研究科學家、該論文的第一作者Ali Madani博士說:”從零開始生成功能性蛋白質的能力表明,我們正在進入一個蛋白質設計的新時代。”這是一個可供蛋白質工程師使用的多功能新工具,我們期待著看到治療性應用”。
完整的作者和資助名單請見該論文。論文中描述的方法的綜合代碼庫可在https://github.com/salesforce/progen上公開獲取。