牛津大學研究人員創建有史以來最大的人類家譜
來自牛津大學大數據研究所的研究人員在繪製人類的全部遺傳關係圖方面邁出了重要的一步:一個可以追溯我們所有人的祖先的單一家譜。這項研究週四已經發表在《科學》雜誌上。
- 人類遺傳多樣性的新譜系網絡以前所未有的細節揭示了世界各地的個體之間的關係。
- 該研究預測了共同的祖先,包括他們生活的大概時間和地點。
- 該分析恢復了人類進化史上的關鍵事件,包括從非洲遷移出來的事件。
- 該基本方法可在醫學研究中得到廣泛的應用,例如確定疾病風險的遺傳預測因素。
過去二十年來,人類基因研究取得了非凡的進展,產生了數十萬人的基因組數據,包括來自成千上萬的史前人類。這帶來了一種令人興奮的可能性,即追踪人類遺傳多樣性的起源,以產生一個完整的關於世界各地的個人如何相互關聯的地圖。
到目前為止,這一願景的主要挑戰是找出一種方法來結合來自許多不同數據庫的基因組序列,並開發出處理這種規模數據的算法。然而,牛津大學大數據研究所的研究人員周四發表的一種新方法可以很容易地結合來自多個來源的數據,並可擴展到容納數百萬的基因組序列。
大數據研究所的進化遺傳學家,主要作者之一黃燕(音譯)博士解釋說:“我們基本上建立了一個巨大的家譜,一個全人類的家譜,盡可能準確地模擬產生我們今天在人類中發現的所有遺傳變異的歷史。這個家譜使我們能夠看到每個人的基因序列與其他每個人的關係,沿著基因組的所有點。”
由於單個基因組區域只從父母一方,即母親或父親那裡繼承,基因組上每個點的祖先可以被認為是“一棵樹”。這組“樹”被稱為“樹序列”或“祖先重組圖”,它將基因區域通過時間追溯到遺傳變異首次出現的祖先。
主要作者Anthony Wilder Wohns博士,作為他在大數據研究所的博士學位的一部分進行了這項研究,現在是麻省理工學院和哈佛大學的Broad研究所的博士後研究員。他說:“從本質上講,我們正在重建我們祖先的基因組,並利用它們形成一個龐大的關係網絡。然後我們可以估計這些祖先生活的時間和地點。我們的方法的力量在於,它對基礎數據的假設很少,而且還可以包括現代和古代的DNA樣本。”
該研究整合了來自八個不同數據庫的現代和古代人類基因組數據,並包括了來自215個人口的總共3609個個體基因組序列。古代基因組包括在世界各地發現的樣本,年齡從1000年到超過10萬年不等。該算法預測了進化樹中必須存在的共同祖先的位置,以解釋遺傳變異的模式。結果網絡包含了近2700萬個祖先。
在添加了這些樣本基因組的位置數據後,作者使用該網絡來估計預測的共同祖先的居住地。結果成功地重現了人類進化史上的關鍵事件,包括從非洲遷移出來。
儘管譜系圖已經是一個極其豐富的資源,但研究小組計劃通過繼續納入可用的遺傳數據使其變得更加全面。由於“樹序列”以一種高效的方式存儲數據,該數據集可以很容易地容納數百萬的額外基因組。
黃燕表示:“這項研究為下一代的DNA測序奠定了基礎。隨著現代和古代DNA樣本的基因組序列質量的提高,這些’樹’將變得更加精確,我們最終將能夠生成一個單一的、統一的地圖,解釋我們今天看到的所有人類遺傳變異的後裔。”
Wohns博士補充說:“雖然人類是這項研究的重點,但該方法對大多數生物都有效;從猩猩到細菌。它在醫學遺傳學方面可能特別有益,可以將遺傳區域和疾病之間的真正聯繫從我們共同的祖先歷史中產生的虛假聯繫中分離出來。”