麻省理工學院新的計算機模型幫助識別驅動癌症的突變
癌細胞可能有成千上萬的DNA突變。然而,這些突變中只有一小部分真正推動了癌症的發展。如果研究人員能夠將這些有害的驅動突變與其他無害的“乘客”突變區分開來,他們就能確定更好的藥物目標。為了促進這些努力,一個由麻省理工學院(MIT)科學家領導的團隊已經建立了一個新的計算機模型,可以快速掃描癌細胞的整個基因組。它能識別出比預期更頻繁出現的突變,這表明它們正在推動腫瘤的生長。
由於一些基因組區域的“乘客”突變頻率極高,淹沒了實際驅動突變的信號,這種類型的預測一直具有挑戰性。
麻省理工學院的研究生Maxwell Sherman說:“我們創建了一種概率性的深度學習方法,使我們能夠得到一個真正準確的模型,即基因組中任何地方應該存在的乘客突變的數量。然後我們可以在整個基因組中尋找突變意外累積的區域,這表明那些是驅動突變。”
在他們的新研究中,科學家們發現了整個基因組的額外突變,這些突變似乎有助於5%到10%的癌症患者的腫瘤生長。研究人員說,這些發現可以幫助醫生確定有更大機會成功治療這些病人的藥物。目前至少有30%的癌症患者沒有檢測到可用於指導治療的驅動突變。
Sherman、麻省理工學院研究生Adam Yaari和前麻省理工學院研究助理Oliver Priebe是這項研究的主要作者,該研究最近發表在《自然-生物技術》上。麻省理工學院西蒙斯數學教授、計算機科學與人工智能實驗室(CSAIL)計算與生物學小組負責人Bonnie Berger是這項研究的資深作者。哈佛醫學院和波士頓兒童醫院的副教授Felix Dietlein也是該論文的作者。
一個新的工具
自從二十年前人類基因組被測序以來,科學家們一直在搜索基因組,試圖找到那些導致細胞不受控制地生長或逃避免疫系統而導致癌症的突變。這已經成功地產生了一些目標,如表皮生長因子受體(EGFR),它通常在肺部腫瘤中發生突變,以及BRAF,一個黑色素瘤的常見驅動因素。這兩種突變現在都可以被特定的藥物作為目標。
雖然這些目標已被證明是有用的,但編碼蛋白質的基因只占基因組的約2%。其他98%的基因也包含可能發生在癌細胞中的突變,但要弄清楚這些突變是否有助於癌症的發展則要困難得多。
Berger說:“確實缺乏能夠讓我們在蛋白質編碼區域之外搜索這些驅動突變的計算工具。這就是我們在這裡要做的事情:設計一種計算方法,讓我們不僅查看基因組中2%的蛋白質編碼,而且查看100%的蛋白質編碼。”
為了做到這一點,研究人員訓練了一種稱為深度神經網絡的計算模型,以搜索癌症基因組中比預期更頻繁出現的突變。作為第一步,他們在來自37種不同類型的癌症的基因組數據上訓練該模型,這使得該模型能夠確定這些類型中每一種的背景突變率。
Sherman說:“我們的模型真正好的地方在於,你為一個給定的癌症類型訓練一次,它就能同時學習該特定類型癌症在整個基因組中的突變率。然後你可以對照你應該看到的突變數量查詢你在病人群中看到的突變。”
用於訓練模型的數據來自Roadmap表觀基因組學項目和一個名為泛癌全基因組分析(PCAWG)的國際數據集。該模型對這些數據的分析給了研究人員一張整個基因組預期乘客突變率的地圖,這樣,任何一組區域(小到單鹼基對)的預期突變率都可以與整個基因組任何地方的觀測突變數進行比較。
利用這個模型,麻省理工學院的科學家們能夠增加可驅動癌症的已知突變景觀。目前,當癌症患者的腫瘤被篩查出致癌突變時,大約三分之二的時間會出現一個已知的驅動因素。麻省理工學院的新研究結果為另外5%到10%的患者提供了可能的驅動突變。
研究人員關注的一種非編碼突變類型被稱為”隱性剪接突變”。大多數基因由外顯子序列和內含子組成,外顯子編碼蛋白質構建指令,內含子是間隔元素,通常在信使RNA被翻譯成蛋白質之前被修剪掉。”隱性剪接突變”是在內含子中發現的,它們可以混淆剪接它們的細胞機器。這導致內含子在不應該出現的情況下被包括在內。
利用他們的模型,研究人員發現,許多隱性剪接突變似乎破壞了腫瘤抑制基因。當這些突變出現時,腫瘤抑制因子被錯誤地拼接並停止工作,而細胞失去了對癌症的防御之一。研究人員在這項研究中發現的隱性剪接點的數量約佔在腫瘤抑制基因中發現的驅動突變的5%。
研究人員說,針對這些突變可以提供一種新的方法來潛在地治療這些病人。一種仍在開發中的可能方法是使用被稱為反義寡核苷酸(ASO)的短鏈RNA,用正確的序列修補變異的DNA片段。
“如果你能以某種方式使突變消失,那麼你就解決了這個問題。那些腫瘤抑制基因可以繼續運作,也許可以對抗癌症,”Yaari說。“ASO技術正在積極開發中,這可能是它的一個非常好的應用。”
研究人員發現非編碼驅動突變高度集中的另一個區域是在一些腫瘤抑制基因的非翻譯區。腫瘤抑制基因TP53在許多類型的癌症中是有缺陷的,已經知道它在這些序列中積累了許多缺失,被稱為5’非翻譯區。麻省理工學院的團隊在一個名為ELF3的腫瘤抑制因子中發現了同樣的模式。
科學家們還利用他們的模型來研究已經知道的常見突變是否也可能驅動不同類型的癌症。作為一個例子,研究人員發現,以前與黑色素瘤有關的BRAF也有助於其他類型癌症中較小比例的癌症進展,包括胰腺、肝臟和胃食道。
“這說明常見驅動因素和罕見驅動因素之間實際上有很多重疊之處。”Sherman說:“這為治療的再利用提供了機會。這些結果可以幫助指導我們應該建立的臨床試驗,以擴大這些藥物從僅僅在一種癌症中被批准,到在許多癌症中被批准並能夠幫助更多的病人。”