科學家們可以使用個人電腦幾分鐘內組裝整個基因組
麻省理工學院(MIT)和法國巴斯德研究所的科學家們已經開發出一種在個人電腦上重建全基因組的技術,包括人類基因組。 這項技術比目前最先進的方法快約100倍,並使用五分之一的資源。
這項研究發表在9月14日的《細胞系統》雜誌上,它允許更緊湊地表示基因組數據,其靈感來自於單詞,而不是字母,為語言模型提供了濃縮的構建塊。 研究人員表示可以在一台普通的筆記型電腦上快速組裝整個基因組和元基因組,包括微生物基因組。 這種能力對於評估與疾病和細菌感染(如敗血症)有關的腸道微生物組的變化至關重要,以便能夠更迅速地治療疾病並拯救生命。
自人類基因組計劃以來,基因組組裝專案已經取得了長足的進步,該計劃在2003年完成了第一個完整人類基因組的組裝,耗資約27億美元,經過十多年的國際合作。 但是,儘管人類基因組組裝專案不再需要幾年的時間,它們仍然需要幾天的時間和大量的計算機能力。 第三代測序技術提供了數萬個鹼基對的高品質基因組序列,然而使用如此巨大數量的數據進行基因組組裝已被證明具有挑戰性。
為了比目前的技術更有效地進行基因組組裝,包括在所有可能的讀數對之間進行配對比較,研究人員轉向了語言模型。 根據德布魯恩圖的概念(一種用於基因組組裝的簡單、高效的數據結構),研究人員開發了一個最小化空間德布魯恩圖(mdBG),它使用稱為最小化器的核苷酸短序列,而不是單核苷酸。
研究人員開發的最小化器空間德布魯恩圖只存儲了總核苷酸的一小部分,同時保留了整體的基因組結構,使它們的效率比經典德布魯恩圖高幾個數量級。 研究人員將他們的方法應用於組裝黑腹果蠅的真正HiFi數據(它具有幾乎完美的單分子讀取精度),以及太平洋生物科學公司(PacBio)提供的人類基因組數據。
當他們評估所得到的基因組時,Berger及其同事發現使用mdBG軟體所需的時間比其他基因組組裝程式少33倍,記憶體用量少8倍。 他們的軟體對HiFi人類數據進行基因組組裝的速度比Peregrine組裝器快81倍,記憶體用量少18倍,比hifiasm組裝器快338倍,記憶體用量少19倍。