麻省理工學院的AI模型能更準確地預測抗體結構幫助疾病治療和簡化藥物研發
研究人員利用被稱為大型語言模型的人工智慧模型,在根據蛋白質序列預測蛋白質結構方面取得了重大進展。 然而,將這種方法應用於抗體卻被證明更具挑戰性,這主要是由於這些蛋白質固有的高度變異性。
為了克服這一限制, 麻省理工學院的研究人員開發了一種計算技術,允許大語言模型更準確地預測抗體結構。 他們的工作可以讓研究人員從數百萬種可能的抗體中篩選出可用於治療SARS-CoV-2和其他傳染病的抗體。
西蒙斯數學教授、麻省理工學院電腦科學與人工智慧實驗室(CSAIL)計算與生物學組組長邦妮-伯傑(Bonnie Berger)是這項新研究的資深作者之一。他說:「如果我們能幫助阻止製藥公司用錯誤的東西進行臨床試驗,那真的會節省很多錢」。
這項技術的重點是對抗體的超變異區域進行建模,它還具有分析個體整個抗體複合物的潛力。 這可能有助於研究對愛滋病等疾病反應超強的人的免疫反應,幫助找出為什麼他們的抗體能如此有效地抵抗病毒。
麻省理工學院生物工程副教授、麻省總醫院、麻省理工學院和哈佛大學拉貢研究所成員布萊恩-布萊森(Bryan Bryson)也是這篇論文的資深作者,該論文最近發表在《美國國家科學院院刊》上。 前CSAIL研究科學家、現任杜克大學生物統計學、生物資訊學和細胞生物學助理教授羅希特-辛格(Rohit Singh)和22歲的Chiho Im是論文的主要作者。 賽諾菲公司和蘇黎世聯邦理工學院的研究人員也參與了這項研究。
超變異性建模
蛋白質由胺基酸長鏈組成,可以折疊成大量可能的結構。 近年來,利用AlphaFold 等人工智慧程式預測這些結構變得更加容易。 其中許多程序,如ESMFold 和OmegaFold,都是基於大型語言模型開發的,這些模型最初是為了分析大量文本而開發的,可以讓它們學會預測序列中的下一個單字。 這種方法同樣適用於蛋白質序列–透過學習不同的胺基酸模式最有可能形成哪些蛋白質結構。
然而,這種技術並不總是適用於抗體,尤其是抗體中被稱為超變異區域的部分。 抗體通常呈現”Y”形結構,這些超變異區位於”Y”形結構的頂端,抗體在這裡檢測並與外來蛋白質(也稱為抗原)結合。 Y 形結構的底部提供結構支撐,幫助抗體與免疫細胞相互作用。
超變異區的長度各不相同,但通常包含少於40 個胺基酸。 據估計,人類免疫系統可以透過改變這些胺基酸的序列產生多達1 兆種不同的抗體,從而幫助確保人體能夠對種類繁多的潛在抗原做出反應。 這些序列不像其他蛋白質序列那樣受到演化的限制,因此大型語言模型很難學會準確預測它們的結構。
辛格說:「語言模型之所以能夠很好地預測蛋白質結構,部分原因在於進化對這些序列的約束方式,而模型能夠解讀這些約束的含義。這類似於透過觀察句子中單字的上下文來學習語法規則,讓你弄清楚它的意思。
為了給這些超變異區域建模,研究人員在現有蛋白質語言模型的基礎上創建了兩個模組。 其中一個模組以蛋白質資料庫(PDB)中約3000 個抗體結構中的超變序列為基礎進行訓練,從而了解哪些序列傾向於產生類似的結構。 另一個模組是根據約3700 個抗體序列與三種不同抗原的結合強度相關聯的數據進行訓練的。
由此產生的名為AbMap的計算模型可以根據胺基酸序列預測抗體結構和結合強度。 為了證明這個模型的實用性,研究人員用它來預測能強烈中和SARS-CoV-2 病毒尖峰蛋白的抗體結構。
研究人員從一組被預測能與此目標結合的抗體開始,然後透過改變超變異區域產生了數百萬個變體。 與基於大型語言模型的傳統蛋白質結構模型相比,他們的模型能夠更準確地識別出最成功的抗體結構。
然後,研究人員將這些抗體分成具有相似結構的幾組。 他們與賽諾菲公司的研究人員合作,從每個群組中選擇抗體進行實驗測試。 實驗發現,這些抗體中有82%的結合強度優於模型中的原始抗體。
研究人員說,在開發過程的早期識別出各種優秀的候選藥物,可以幫助製藥公司避免花費大量資金測試候選藥物,但最終卻以失敗告終。
“他們不想把所有雞蛋都放在一個籃子裡,」辛格說。 「他們不想說,我打算採用這種抗體並進行臨床前試驗,結果卻發現它是有毒的。 他們更希望有一組好的可能性,並將它們全部通過,這樣如果其中一個出了問題,他們還有一些選擇。
比較抗體
利用這種技術,研究人員也可以嘗試回答一些長期存在的問題:為什麼不同的人對感染的反應不同? 例如,為什麼有些人會患上嚴重得多的COVID,為什麼有些人接觸到愛滋病毒後從未被感染?
科學家一直試圖透過對個體的免疫細胞進行單細胞RNA測序和比較來回答這些問題,這個過程被稱為抗體複合物分析。 先前的研究表明,兩個不同人的抗體庫可能只有10%的重疊。 然而,定序並不能像結構資訊那樣全面地反映抗體的性能,因為兩種具有不同序列的抗體可能具有相似的結構和功能。
新模型可以快速產生個體體內所有抗體的結構,有助於解決這個問題。 在這項研究中,研究人員發現,當結構被考慮時,個體間的重疊率遠高於序列比較中的10%。 他們現在計劃進一步研究這些結構如何有助於人體對特定病原體的整體免疫反應。
辛格說:”這正是語言模型非常適合的地方,因為它具有基於序列分析的可擴展性,但又接近基於結構分析的準確性。”
編譯自/ scitechdaily