騰訊發布首個AI藥物研發平台“雲深智藥”
2020世界人工智能大會雲端峰會開幕。會上,騰訊首席運營官任宇昕公佈了用AI助力藥物研發領域的最新進展——由騰訊自主研發的首個AI驅動的藥物發現平台“雲深智藥(iDrug)”正式對外發布。
雲深智藥平台的推出,將幫助研發人員提升臨床前藥物發現的效率,有望緩解新冠疫情威脅下,醫藥行業亟需快速、低成本地進行藥物研發的痛點。
騰訊已和多家藥企達成合作,將AI模型應用到實際藥物研發項目中。目前已有十餘個項目,包括對抗新冠病毒藥物的相關研發等,在雲深智藥平台上穩定運行。
“雲深智藥”的命名出自唐詩《尋隱者不遇》,“只在此山中,雲深不知處”,暗含新藥研發背後相似的歷程。
該平台旨在覆蓋臨床前新藥研發的全流程,包含蛋白質結構預測、虛擬篩選、分子設計/優化、ADMET性質預測(即將開源)及合成路線規劃等在內的五大模塊。
蛋白質結構預測作為藥物設計的基礎,對了解生物體內分子間的相互作用至關重要。此前藥企、科研機構等通過傳統方式進行蛋白質結構的實驗測定,往往難度大、週期長、費用高。
而通過深度學習模型預測出蛋白質結構以及功能後,計算機可以更快的從數億的海量小分子中,快速而有針對性地找到潛在的苗頭化合物,有效提升研發效率。
此次在雲深智藥平台上,騰訊AI Lab應用了一項預測蛋白質結構的新算法。數據顯示,騰訊新算法在困難案例(hard)上的提高非常顯著,比業內公認的權威方法Robetta提高了10%。
自2020年加入蛋白質結構預測的全球權威測試平台CAMEO以來,騰訊AI Lab團隊憑藉該自研算法,半年內五次奪得月度冠軍。
這項算法的創新思路也已應用在雲深智藥平台上,將在新靶點發現、疾病機理研究上進一步發揮應用價值。
在藥物虛擬篩选和ADMET性質預測方面,騰訊AI Lab也在多個公開數據集上取得較高精確度、突破了業界標準。後續ADMET預測模塊將開源大規模自監督分子圖預訓練GX模型,分子生成模型預計也將在下半年開源。
目前,虛擬篩选和ADMET性質預測兩個工具模塊已免費對外開放使用,蛋白質結構預測、分子設計/優化、合成路線規劃等模塊也將在未來幾個月陸續上線,後續平台還將研發更多藥物發現功能模塊和分析功能。
除了能夠免費使用平台搭載的核心功能外,藥企、科研機構還可以與騰訊共同開發定制化的AI工具。
雲深智藥平台融合了騰訊AI Lab和騰訊雲在前沿算法、優化數據庫以及計算資源上的優勢,用戶不需再自行部署,登錄平台就能快速地將AI能力引入現有的研發流程中,可以更便捷地展開研究。
以下為詳細的技術解讀
平台提供數據庫-算法-算力一體化服務
AI助力藥物研發,算法、算力、數據三要素缺一不可、且相輔相成。先進算法可對已有大數據深度挖掘並分析數據間的隱含關係。
這個過程不僅直接助力新藥發現,還整合了大量已有數據庫,同時促進新數據的產生和積累,更好地優化算法。優化的算法反過來也能降低模型對數據量的依賴,提高模型的範化性。
騰訊的算力支持則加快了數據庫存儲查找、算法迭代速度,並大大縮短使用模型的運算時間。
雲深智藥平台除了在算法領域不斷創新,還提供算力和數據庫的一體化服務支撐。
數據方面,分子大數據是藥物研發中的基礎設施。
現有的藥物分子公開數據集,以PubChem和ChEMBL等為代表,其來源多樣。但也由於數據來源於不同機構的不同實驗環境,存在數據難以對齊,字段缺失較多,總體質量不佳的問題,從而難以直接用於開發預測模型。
雲深智藥平台使用的分子大數據,基於現有公開數據集,進行了多個環節的精細清洗整理工作,得到可以用於直接構建深度學習模型的藥物分子大數據集,並且已在多個藥物研發的項目中得到應用驗證,清洗過程對多個項目的結果均有很大的提升作用。
清洗過後的、打通多個數據庫的大數據集已在陸續上線中。
算力方面,騰訊雲為雲深智藥平台提供計算資源,藥企、科研機構登錄平台即可開展研究,不需要再自行部署,就能快速地將AI能力引入現有的研發流程中。
平台功能覆蓋新藥發現全流程
臨床前新藥發現流程要經歷從靶點的發現和驗證、苗頭化合物的發現、先導化合物的發現和優化直至臨床候選化合物的確認及開發。“雲深智藥”平台覆蓋了臨床前新藥發現的全流程。
新藥發現的第一步是靶點識別和確認,找到藥物在體內的作用位點,確定靶點蛋白質的結構是其中的關鍵工作,被視為藥物研發的重要基石。
比如一個蛋白參與了某個疾病並成為關鍵通路上的重要一環,那麼當研究人員了解該蛋白的結構後,就可以針對性地設計藥物分子來調節蛋白的功能。
實驗測定蛋白質結構往往難度大、週期長、費用高;通過深度學習模型預測出蛋白質結構以及功能後,計算機便可以更快地從數億的海量小分子中,快速而有針對性地找到潛在的苗頭化合物。
“雲深智藥”平台採用的蛋白質結構預測方法在準確度上達到國際領先水平,得益於兩項關鍵技術上取得突破。
一是基於自監督學習的蛋白質折疊方法,不依賴同源序列,而是直接從序列數據庫中通過自監督學習,學得共進化的模式,從而能夠從無到有地產生出含有共進化信息的偽同源序列,並最終讓這些蛋白能夠有效折疊;
二是通過一種基於深度學習的可迭代方法,有效整合模板建模與自由建模,首次提出了動態的、可迭代的氨基酸對特異性的約束條件,顯著提高了建模的精度,從而更好的折疊蛋白。
針對靶點篩選苗頭化合物是新藥發現的第二步。與傳統的實驗篩選相比,計算方法進行的虛擬篩選無需消耗化合物樣品,能極大節省人力物力。
基於配體的藥物設計方法(ligand-based drug design,LBDD)是虛擬篩選的常見方法之一,是指從已知的有活性的配體小分子結構出發,學習和建立分子結構與活性之間關係的模型,用來預測新化合物的活性。
由於很多靶點的已測得的化合物活性數據非常有限,嚴重製約了預測模型的準確性。
AI方法有望解決這一問題:例如“雲深智藥”平台的虛擬篩選模塊首次將元學習和深度神經網絡算法用於LBDD任務,通過AI”遷移“從其他靶點上面學習到的知識(如分子局部結構對靶點結合強度的影響),應用在目標靶點上來提高模型預測精度。
目前,該算法在數千個實驗數據集上預測精度(預測活性與實驗測量活性的相關性)的中位數從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60 %,突破業界標準。
進入藥物研發後期,預測分子的ADMET性質尤為重要(包括藥物的吸收、分配、代謝、排泄和毒性)。據統計,因ADMET性質問題引起的藥物後期失敗的比例高達60%。
因此,及早發現並排除成藥性欠佳的分子能夠大幅降低後期藥物研發失敗的風險。基於AI的ADMET性質預測能夠讓藥物化學家快速地進行分子結構改造,優化分子理化性質,縮短藥物研發的周期,降低實驗測試成本。
“雲深智藥”平台的藥物小分子ADMET屬性預測模塊已在多個數據集上比學術界現有最好模型提高3%~11%;在合作夥伴的反饋中,平台的自研算法精度超過現有商業軟件6%~37%不等。
同時,平台採用了注意力等機制可視化分子中的子結構對結果的影響,提供模型的可解釋性。此外,平台還可提供當地版本等靈活的部署形式,保障用戶的數據安全。