北京大學構建出基於深度學習和基因指紋的“靈素”藥效預測系統
創新藥物研發是一個週期長、耗費大的艱難過程。與發達國家相比,我國在創新藥研發方面仍有巨大差距。一方面,人工智能和深度學習在復雜體系方面的成功應用使研發人員認識到其在藥物研發領域巨大的應用潛力。另一方面,藥物研發的各個環節都積累了大量的數據,包括蛋白質三維結構、小分子有機合成通路、小分子-蛋白靶點結合、藥物的藥代動力學、藥物製劑等方面。
這些數據的應用和新的深度學習算法開發使得藥物研發正在轉向數據驅動和人工智能驅動。
傳統的基於靶點的藥物開發採取的是“一個分子——一個靶點——一種疾病”的開發策略。然而,這種方法也存在許多困難,包括:1.許多疾病的病理機制仍不清楚或發病機制涉及多條途徑;2.脫靶效應難以控制;3.一些靶點難以成藥;4.生物體系統有代償機制,導致無法輸出藥效;5靶點發現的技術手段有限導致結果不可靠等。鑑於上述各種困難,新的、更加高效的計算系統需要被開發。因為大多數疾病與基因表達譜的特徵性變化有關,這些變化又被用作疾病的病理指標。選取基因指紋作為中間指標具有多樣性和多種疾病中的普適性。
2021年6月17日,Nature Biotechnology在線發表了題目為“Prediction of drug efficacy fromtranscriptional profiles with deep learning”的科研論文,揭示了一種基於基因指紋和深度學習的藥效預測系統(DLEPS,中文名靈素系統)在創新藥物研發中的應用。
在該研究中,研究人員首先構建了一個神經網絡,使用SMILES化學編碼作為輸入,以預測L1000數據中測量的轉錄組變化(圖1a)。使用疾病相關基因指紋來反映特定疾病的“內在痕跡”,並且使用基因集合富集分析(GSEA)來評估化合物對疾病的潛在療效。研究人員將這種方法和模型稱為基於深度學習的藥效預測系統,中文名為靈素系統。在預測基因表達變化部分,系統可以準確的預測新分子對轉錄組造成的影響,測試組預測平均相關性達到0.74,分佈峰值為0.90 (圖2)。
研究人員進一步深入探索了靈素系統的性能,發現它:1.可以精確預測新結構小分子誘導的基因表達譜變化;2.它可以準確的區分結構非常相似的小分子(只差一個基團)誘導的基因表達譜差異。
在實驗驗證方面,研究員人員針對商用小分子數據庫(包括FDA批准藥物、天然產物、臨床數據庫)預測了治療三種疾病(肥胖、尿酸血症、非酒精性脂肪肝炎NASH)的化合物(圖4) 。結果表明,對於肥胖,研究人員發現三個DLEPS預測化合物(測試了四個)可降低小鼠的脂肪含量,並且誘導數十個褐變基因(白色脂肪組織變成棕色脂肪組織)表達上調,減輕了小鼠的體重,達到了減肥的目的。對於高尿酸血症,靈素系統成功預測了天然產物紫蘇烯,其可降低血清尿酸,效果上優於四種陽性藥物,還具有抗炎和抗纖維化的優勢。對於NASH,研究人員發現三種MEK-ERK信號通路抑製劑可緩解NASH相關的肝髒病理,也是首次揭示了MEK-ERK通路在NASH中的重要作用。
綜上所述,靈素系統可成功應用於篩選治療肥胖、高尿酸血症和NASH的化合物,總體準確率超過50%。和傳統的高通量基因標記篩選方法相比,靈素系統同時考慮多個基因指標,精度更高。靈素系統不需要預先合成實體分子庫,大大的降低了成本和工作量,效率得到很大的提高。和傳統的基於靶點的方法相比,靈素系統更加靈活,僅基於基因指紋就可預測候選分子,可以在復雜疾病上得到更好藥效的化合物,更快的找到工具分子,然後通過倒推的方式發現疾病的新靶點,從而實現在藥效預測和靶點上開發雙管齊下、同步進行。在文章涉及的三個實例中,作者先是發現了紫蘇烯可以顯著降低尿酸水平,然後發現它作用在已知靶點XOD上,Kd=1.5uM。在NASH中,首次發現了MEK-ERK在治療非酒精性脂肪性肝炎中的作用。
了解更多: