利用ChatGPT背後的AI加速藥物發現- 每天可篩選1億種化合物
通過將語言模型應用於蛋白質與藥物的相互作用,研究人員可以快速篩選大量的潛在藥物化合物庫。巨大的藥物化合物庫可能擁有治療各種疾病的潛力,如癌症或心髒病。理想情況下,科學家們希望通過實驗對這些化合物中的每一種針對所有可能的目標進行測試,但進行這樣的篩選是非常耗時的。
近年來,研究人員已經開始使用計算方法來篩選這些化合物庫,希望能加快藥物發現的速度。然而,其中許多方法也需要很長的時間,因為它們中的大多數都是從氨基酸序列中計算出每個目標蛋白的三維結構,然後用這些結構來預測它將與哪些藥物分子相互作用。
麻省理工學院和塔夫茨大學的研究人員現在已經設計出一種基於一種被稱為大型語言模型的人工智能算法的替代計算方法。這些模型–一個著名的例子是ChatGPT–可以分析大量的文本,並找出哪些詞(或者,在這種情況下是氨基酸)最有可能一起出現。這個被稱為ConPLex的新模型可以將目標蛋白質與潛在的藥物分子相匹配,而不必執行計算分子結構的密集步驟。
使用這種方法,研究人員可以在一天內篩選出超過1億個化合物–比任何現有模型都要多。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)計算與生物學組組長、西蒙斯數學教授邦尼-伯傑(Bonnie Berger)說:”這項工作解決了對潛在候選藥物進行高效和準確的矽計算篩選的需求,而且該模型的可擴展性使得大規模篩選可以評估脫靶效應、藥物再利用以及確定突變對藥物結合的影響。”
塔夫茨大學計算機科學教授Lenore Cowen也是該論文的資深作者,該論文於6月8日發表在《美國國家科學院院刊》上。CSAIL的研究科學家Rohit Singh和麻省理工學院的研究生Samuel Sledzieski是這篇論文的主要作者,麻省理工學院生物工程副教授、麻省理工學院和哈佛大學Ragon研究所成員Bryan Bryson也是作者。除了這篇論文,研究人員還在網上提供了他們的模型供其他科學家使用。
進行預測
近年來,計算科學家在開發能夠根據蛋白質的氨基酸序列預測其結構的模型方面取得了巨大的進展。然而,使用這些模型來預測大型潛在藥物庫如何與一個癌症蛋白質相互作用,例如,已被證明具有挑戰性,主要是因為計算蛋白質的三維結構需要大量的時間和計算能力。
另一個障礙是,這類模型在消除被稱為誘餌的化合物方面沒有良好的記錄,這些誘餌與成功的藥物非常相似,但實際上並不能與目標發生良好的互動。
Singh說:”該領域的一個長期挑戰是這些方法是脆弱的,也就是說,如果我給模型一種藥物或一種小分子,看起來幾乎像真正的東西,但它在某些微妙的方面略有不同,該模型可能仍然預測它們會相互作用,儘管它不應該。”
研究人員已經設計出了能夠克服這種脆弱性的模型,但它們通常只針對一類藥物分子,而且由於計算時間過長,它們並不適合大規模篩選。
麻省理工學院的團隊決定採取另一種方法,基於他們在2019年首次開發的一個蛋白質模型。與一個包含2萬多個蛋白質的數據庫合作,該語言模型將這些信息編碼為每個氨基酸序列的有意義的數字表示,這些數字表示捕捉了序列和結構之間的關聯。
Sledzieski說:”有了這些語言模型,即使是序列非常不同但可能具有類似結構或類似功能的蛋白質也可以在這個語言空間中以類似的方式表示,我們能夠利用這一點來進行預測。”
在他們的新研究中,研究人員將蛋白質模型應用於找出哪些蛋白質序列將與特定藥物分子相互作用的任務,兩者都有數字表示,通過神經網絡轉化為一個共同的共享空間。他們對已知的蛋白質-藥物相互作用進行了訓練,這使得它能夠學會將蛋白質的具體特徵與藥物結合能力聯繫起來,而不必計算任何分子的三維結構。
“有了這種高質量的數字表示,該模型可以完全繞過原子表示,並從這些數字中預測這種藥物是否會結合,”Singh說。”這樣做的好處是,你避免了通過原子表示法的需要,但這些數字仍然有你需要的所有信息。”
這種方法的另一個優點是,它考慮到了蛋白質結構的靈活性,當與藥物分子相互作用時,蛋白質結構可能是”搖擺不定”的,並呈現出略微不同的形狀。
高親和力
為了使他們的模型不太可能被誘餌藥物分子所愚弄,研究人員還納入了一個基於對比學習概念的訓練階段。在這種方法下,研究人員給模型提供了”真實”藥物和誘餌的例子,並教它區分它們。
然後,研究人員通過篩選大約4700個候選藥物分子庫來測試他們的模型,看它們是否能與一組被稱為蛋白激酶的51種酶結合。
研究人員從排名靠前的藥物中選擇了19個藥物-蛋白對進行實驗測試。實驗顯示,在這19個命題中,有12個具有很強的結合親和力(在納摩爾範圍內),而幾乎所有其他可能的藥物-蛋白質配對都沒有親和力。這些配對中的四個以極高的、亞納摩爾的親和力結合(如此之強,以至於極小的藥物濃度,即十億分之一,就能抑制該蛋白質)。
雖然研究人員在這項研究中主要側重於篩選小分子藥物,但他們現在正致力於將這種方法應用於其他類型的藥物,如治療性抗體。這種建模也可以證明對潛在的藥物化合物進行毒性篩選是有用的,以確保它們在動物模型中測試之前沒有任何不必要的副作用。
“藥物發現如此昂貴的部分原因是它有很高的失敗率。”Singh說:”如果我們能夠通過預先說這種藥物不可能成功來減少這些失敗率,這可以在很大程度上降低藥物發現的成本。”
美國國家癌症研究所癌症數據科學實驗室主任Eytan Ruppin說,這種新方法”代表了藥物-靶點相互作用預測的重大突破,並為未來的研究提供了更多機會,以進一步提高其能力”,他並沒有參與這項研究。”例如,將結構信息納入潛伏空間或探索生成誘餌的分子生成方法可以進一步改善預測。”