研究人員利用深度學習探究RNA 為COVID-19診斷儀開發傳感器
基因組是決定一個生物體特徵的遺傳藍圖,對於病毒而言DNA和RNA是基因組序列的構建模塊,而直接操縱這些核酸可以使生物體發生切實的變化。因此,基因工程的發展重點在於我們操縱基因組序列的能力。但這是一項艱鉅的任務。例如,精確地控制一類被稱為“趾甲開關”的特定工程化RNA分子,可以為了解細胞環境和潛在的疾病提供重要的洞察力。
然而,以前的實驗表明,“趾甲開關”並不可控,很多情況下生物對修飾沒有反應,即使它們已經根據已知的RNA折疊規則被設計成對給定輸入產生所需的輸出。
考慮到這一點,來自哈佛大學Wyss研究所和麻省理工學院的兩個研究團隊開發了一套機器學習算法可以改善這一過程。他們使用深度學習來分析大量的趾甲開關序列,以準確預測哪些趾甲能夠可靠地執行預期任務,從而使研究人員能夠為他們的實驗確定高質量的趾甲。他們的研究結果今天已經在《自然》雜誌上分別發表了兩篇論文。
對於解決任何機器學習問題,第一步是收集特定領域的數據來訓練模型。研究人員收集了一個由腳趾頭開關序列組成的大型數據集。聯合第一作者、在Wyss工作的研究生Alex Garruss表示。
“我們通過沿23種病毒和906種人類轉錄因子的整個基因組系統性地取樣短觸發區域,設計並合成了一個龐大的腳趾開關庫,總計近10萬個。”
由於有兩個獨立的團隊,研究人員嘗試用兩種不同的技術來處理這個問題。第一篇論文的作者決定不把趾甲開關作為鹼基序列來分析,而是作為鹼基對可能性的2D圖像來分析。這種被稱為Visualizing Secondary Structure Saliency Maps,或VIS4Map的方法,成功地識別了影響toehold開關性能的物理元素,為利用傳統分析技術沒有發現的RNA折疊機制提供了洞察力。
在生成了數千個趾甲開關的數據集後,一個團隊使用基於計算機視覺的算法將開關序列分析為二維圖像,而另一個團隊則使用自然語言處理將序列解釋為用RNA的”語言”書寫的”文字”。
第二篇論文的作者創建了兩種不同的深度學習架構,利用正交技術來應對識別”易感”趾甲開關的挑戰。第一個模型是基於卷積神經網絡(CNN)和多層感知器(MLP)的,它將趾甲序列視為1D圖像,或核苷酸鹼基線。使用一種名為”基於序列的toehold優化和重新設計模型”(STORM)的優化技術,它識別了鹼基的模式和這些鹼基之間的潛在相互作用,以標記感興趣的toehold。
第二種架構將問題建模到自然語言處理(NLP)領域,將每個腳趾頭序列視為由單詞模式組成的短語。然後,任務是訓練一個模型來組合這些單詞或核苷酸鹼基,以使一個連貫的短語。這個模型與基於CNN的模型相結合,創建核酸語音(NuSpeak)。這種優化技術重新設計了一個給定趾甲開關的最後9個核苷酸,同時保持其餘21個核苷酸不變。這樣就可以創建專門的趾甲開關,檢測特定病原體RNA序列的存在,並可用於開發新的診斷測試。
通過依次使用這兩種模型,研究人員能夠預測哪些趾甲序列會產生高質量的傳感器
為了測試這兩種模型,研究人員使用其優化的趾甲開關感應了SARS-CoV-2的片段,這是一種導致COVID-19的病毒基因組。NuSpeak將傳感器的性能平均提高了160%。另一方面,STORM創建了四個SARS-CoV-2病毒RNA傳感器的更好版本,將其性能提高了28倍。對於這些令人印象深刻的結果,第二篇論文的共同第一作者,Wyss研究所的MIT學生Katie Collins表示。
“STORM和NuSpeak平台的一個真正的好處是,它們使你能夠快速設計和優化合成生物學組件,正如我們為COVID-19診斷器開發的趾甲傳感器所顯示的那樣。