科學家提出一種能快速獲得精確日期的進化樹的新計算方法
近日,一項新研究描述了一種快速獲取精確日期的進化樹–也被稱為“時間樹”的新計算方法。據悉,研究人員通過這種新方法分析了一個哺乳動物基因組數據集並回答了一個長期存在的問題,即現代胎生哺乳動物群起源於白堊紀-太古紀(K-Pg)大滅絕之前還是之後。
據悉,那次大滅絕消滅了70%以上的物種,包括所有的恐龍。
這些發現證實了現代胎盤哺乳動物群體的祖先是在6600萬年前發生的K-Pg大滅絕之後,這解決了圍繞現代哺乳動物起源的爭議。胎盤哺乳動物是現存哺乳動物中最多樣化的群體,包括靈長類、囓齒類、鯨類、食肉動物、翼手類(蝙蝠)及人類等群體。
該研究小組由Mario dos Reis博士(倫敦大學瑪麗皇后學院)和Phil Donoghue教授(布里斯托爾大學)領導,成員包括來自瑪麗皇后學院、布里斯托爾大學、倫敦大學、倫敦帝國學院和劍橋大學的科學家。
來自UCL(當時在瑪麗皇后大學)的論文第一作者Sandra Álvarez-Carretero博士表示:“通過在分析中整合完整的基因組和必要的化石信息,我們能減少不確定性並獲得一個精確的進化時間表。現代哺乳動物群體是跟恐龍共存還是起源於大滅絕之後?我們現在有了一個明確的答案。”
“哺乳動物進化的時間線也許是進化生物學中最有爭議的話題之一。早期的研究為現代胎生動物群提供了在白堊紀深處、恐龍時代的起源估計。在過去的20年裡,研究在K-Pg後和K-Pg前的多樣化方案之間來回穿梭,”這篇論文的共同第一作者Donoghue教授補充道,“我們精確的時間表解決了這個問題。”
基因組分析的快速方法
隨著世界範圍內的測序項目現在產生了成百上千的基因組序列且即將計劃對超過一百萬的物種進行測序,進化生物學家很快就會有大量的信息在他們手中。然而目前分析現有的龐大基因組數據集並創建進化時間表的方法效率低下、計算成本高。
“推斷進化的時間線是生物學的一個基本目標。然而最先進的方法依賴於使用計算機來模擬進化時間線並評估最合理的時間線。在我們的案例中,由於分析了巨大的數據集,涉及近5000種哺乳動物的遺傳數據和72個完整的基因組,這很困難,”dos Reis博士說道。
在這項研究中,研究人員開發了一種新的、快速的貝葉斯方法來分析大量的基因組序列,同時還將數據中的不確定性考慮在內。“我們通過將分析分為子步驟來解決計算上的障礙:首先使用72個基因組模擬時間線,然後使用結果來指導對其餘物種的模擬,”dos Reis博士指出,“使用基因組可以減少不確定性,因為它可以從模擬中拒絕不靠譜的時間線。”
“我們的數據處理管道為盡可能多的哺乳動物物種獲取了盡可能多的基因組數據。這很有挑戰性,因為基因數據庫包含不准確的內容,我們必須制定一個策略來識別質量差的樣本或必須刪除的錯誤標籤數據,”來自UCL的論文的共同第一作者Asif Tamuri博士補充稱。據悉,他負責組裝哺乳動物基因組數據集。
更高效和可持續
研究小組通過這一新方法能將這種複雜分析的計算時間從幾十年減少到幾個月。“如果我們沒有使用我們所開發的貝葉斯方法而試圖在超級計算機中分析這個大型哺乳動物數據集,我們將不得不等待數十年才能推斷出哺乳動物的時間樹,”Álvarez-Carretero表示,“試想一下,如果我們使用自己的個人電腦,這項分析可能需要多長時間。此外,我們設法將計算時間減少了100倍。這種新方法不僅可以分析基因組數據集,而且由於效率更高,大大減少了因計算而釋放的二氧化碳排放量。”
據悉,該研究中開發的方法可用於解決其他需要分析大型數據集的有爭議的進化時間線。通過將新穎的貝葉斯方法跟即將到來的達爾文生命之樹(Darwin Tree of Life)和地球生物基因組(Earth BioGenome)項目的基因組結合起來,為生命樹估計一個可靠的進化時間尺度的想法現在看來是可以實現的。