影響多達21.6萬項研究:流行的遺傳學方法被發現存在嚴重缺陷
根據瑞典隆德大學的最新研究,人口遺傳學中最常用的分析方法存在很大的缺陷。這可能造成了不正確的結果和對種族和遺傳關係的誤解。該方法已被用於數十萬項研究,影響了醫學遺傳學甚至是商業血統測試的結果。這些發現最近發表在《科學報告》雜誌上。
收集科學數據的速度正在迅速增加,從而產生了巨大且非常複雜的數據庫,這被稱為“大數據革命”。研究人員採用統計技術來壓縮和簡化數據,同時保留大部分重要信息,以使數據更易於管理。主成分分析(Principal Component Analysis,PCA)可能是使用最廣泛的方法。將PCA想像成一個烤箱,麵粉、糖和雞蛋作為輸入數據。烤箱可能總是執行同樣的事情,但最終的結果,即蛋糕,在很大程度上取決於成分的比例和它們的混合方式。
“人們期望這種方法會給出正確的結果,因為它是如此頻繁地被使用。但它既不能保證可靠性,也不能產生統計學上的穩健結論,”隆德大學分子細胞生物學副教授Eran Elhaik博士說。
根據Elhaik的說法,該方法促成了關於種族和民族的古老信念的發展。它在製造關於人們來自誰和哪裡的歷史故事中發揮了作用,不僅科學界如此,商業性的祖先公司也是如此。一個眾所周知的例子是,在2020年總統競選前,一位著名的美國政治家利用血統測試來支持他們的祖先主張。另一個例子是在PCA結果的驅動下,將阿什肯納茲猶太人誤認為是一個孤立的群體或種族。
“這項研究表明,這些結果是不可靠的,”Eran Elhaik 說。
PCA被用於許多科學領域,但Elhaik的研究側重於它在人口遺傳學中的使用,在人口遺傳學中,數據集規模的爆炸性增長尤為突出,這是由DNA測序的成本降低所推動的。
在古基因組學領域,我們想了解古代民族和個人,如銅器時代的歐洲人,嚴重依賴PCA。PCA被用來創建一個遺傳圖譜,將未知樣本與已知參考樣本放在一起。到目前為止,未知樣本被認為與它們在地圖上重合或最接近的參考人群有關。
然而, Elhaik發現,僅僅通過改變參考樣本的數量和類型,就可以使未知樣本接近任何參考群體,產生幾乎無窮無盡的歷史版本,所有數學上的”正確”,但只有一個可能是生物學上的正確。
在這項研究中,Elhaik研究了PCA的12種最常見的群體遺傳學應用。他使用了模擬和真實的遺傳數據來顯示PCA的結果是多麼的靈活。根據Elhaik的說法,這種靈活性意味著基於PCA的結論是不可信的,因為參考或測試樣本的任何變化都會產生不同的結果。
僅在遺傳學方面就有32000到21.6萬篇科學文章採用了PCA來探索和可視化個體和種群之間的相似性和差異,並根據這些結果得出結論。
“我認為必須對這些結果進行重新評估,”Elhaik 說。
他希望新的研究能夠開發出一種更好的質疑結果的方法,從而有助於使科學更加可靠。他在過去十年中花了很大一部分時間來開創此類方法,如用於從DNA預測生物地理的地理種群結構和用於改善基因測試和藥物試驗中使用的病例對照匹配的配對器。
“提供這種靈活性的技術鼓勵了不良的科學,在一個有強烈的出版壓力的世界裡,這種技術特別危險。如果一個研究人員多次運行PCA,那麼他總是會選擇能產生最佳故事的輸出。”劍橋大學的William Amos教授補充說,他沒有參與這項研究。