騰訊新研究登Nature子刊讓細胞與計算機“對話”輔助精準治癌
騰訊把BERT方法用於單細胞註釋技術,還登上了Nature子刊。能輔助醫生精準治癌的那種。此次聚焦的單細胞RNA測序(scRNA-seq)技術,一直被稱為生命科學領域的革命性工具,對於“精準醫療”具有極高的應用價值。
但是,以前受制於數據樣本量小、人工干預多等因素,一直難以推廣使用。
這次騰訊首次將“transformer”應用到該領域,使其真正實現了高解釋性、高泛化性、高穩定性。
目前,該模型已在GitHub上開源(鏈接附在文末)。
新模型怎麼做到的?
眾所周知,人類各種組織之間細胞的類型、狀態和相互作用差異巨大。
而單細胞RNA測序技術的出現,可以細粒度地觀察和刻畫各個物種中組織、器官和有機體中單細胞分子圖譜(細胞表達),堪稱給細胞中的每個基因都印上專屬“身份證”。
通過這一技術,研究人員可以更好地研究這些組織及其中存在的不同類型的細胞。
更進一步地說,還可以更好地了解腫瘤微環境,以達到精細分析病因、精準匹配治療方案的效果。
但是,受數據樣本量小、人工干預多、過度依賴marker gene(已報導的特異性基因)等因素的影響,單細胞測序細胞類型註釋技術一直面臨著泛化性、可解釋性、穩定性均比較低的問題,現存的算法也難以有更廣泛的應用。
具體來說,人工註釋費時、主觀性強、誤差大、不利於發現新的細胞類型;機器註釋則經常出現在一個檢測組織裡有效,換到另外一個檢測組織裡就沒效的問題,還是需要人工參與。
為此,研究人員開發了一種基於預訓練深度神經網絡的模型:scBERT模型,並首次將“transformer”運用到單細胞轉錄組測序數據分析領域。
scBERT模型,顧名思義是基於BERT的思路和範式。
在預訓練數據選擇上,為了保證全基因組內基因級別的可解釋性,scBERT沒有做任何的降維或篩選處理,最大程度上保留數據本身的特性和信息。
此外,該模型複用了大規模的公開數據集,包含不同實驗來源、批次和組織類型的單細胞數據,以保證模型能學習到更為“通用”的知識,精準捕獲單個基因的表達信息及兩兩基因之間的作用關係。
在實驗中,scBERT模型也證實了其在單細胞測序上呈現出的高解釋性、高泛化性、高穩定性。
截至目前,通過了9個獨立數據集、超過50萬個細胞、覆蓋17種主要人體器官和主流測序技術組成的大規模benchmarking測試數據集上,該算法模型的優越性均得以驗證。
值得一提的是,在極具挑戰的外周血細胞亞型細分任務上,相較現有最優方法的70%準確度提升了7%。
不僅如此,這一技術的突破在實際應用中也有很重要的價值:
未來可用於臨床單細胞測序數據,並輔助醫生描述準確的腫瘤微環境、檢測出微量癌細胞,從而實現個性化治療方案或者癌症早篩。
同時,對疾病致病機制分析、耐藥性、藥物靶點發現、預後分析、免疫療法設計等領域都具有極其重要的作用。
研究團隊
研究團隊主要來自騰訊AI Lab,共同一作有三位:Fan Yang、Wenchuan Wang和Fang Wang。
研究人員稱,未來他們會繼續基於自身先進AI技術的積累,與下游臨床、製藥和生命科學基礎研究領域進行密切合作。
GitHub鏈接和論文鏈接放在文末,感興趣的小伙伴可以自取~
GitHub鏈接:
https://github.com/TencentAILabHealthcare/scBERT
論文鏈接: