不到20毫升血液如何成就一項基礎研究重大突破
何忠(化名)沒有想到,自己身上不到20毫升的血液樣本,竟成就了一項被中國工程院院士、哈爾濱醫科大學黨委書記張學評價為「我國乃至世界範圍內里程碑式的事件」的成果。利用何忠的血液樣本,北京大學人民醫院教授高佔成團隊和中國科學院北京基因組研究所(國家生物資訊中心)研究員康禹團隊首次在世界範圍內成功完成從端粒到端粒的中國人全基因組,獲得包括Y染色體在內的高品質真實人類二倍體以及完整無間隙的全基因組參考序列(44+XY)。
因為這個採樣點位於山西省臨汾市-數千年前堯帝建立的古唐國遺址附近,研究團隊將此參考基因組命名為「唐堯」。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0201/ebe08732e7965fb.webp?w=640&ssl=1)
「唐堯」基因組相關研究成果發表在《基因組蛋白質體與生物資訊學報》上,圖為當期雜誌封面
在人們印像中,人類基因組圖譜早已公佈,如今一般人的基因組也很容易被測出來。為何“唐堯”基因組會被評價為“里程碑式的事件”,這一基礎研究領域的突破意味著什麼?科技日報記者對此進行了採訪。
現有人類參考基因組用於華人有偏差
這是一項由臨床應用需求催生的基礎研究。
過去幾十年,北京大學人民醫院呼吸與重症醫學科主任高佔成的主要工作是接診來自全國各地的呼吸科疑難雜症患者。他帶領團隊首次診斷出多例孤兒肺病,如瀰漫性肺淋巴管瘤病、肺泡蛋白沉積症等。
許多案例豐富了他的醫學實踐,但也為他帶來了診療困惑。不少疾病症候群在不同種族族群的臨床表現存在不小的差異。
「目前所有的腫瘤、遺傳疾病等定序診斷報告,均根據美國主導的GRCh37/38為人類參考基因組序列來判定正常或變異。」高佔成說,GRCh37/38是來自多個人類個體基因組序列嵌合而成的一套基因組,主要來源是非洲和歐洲人。它不但不完整、錯誤多,而且難以代表中國乃至亞裔族群。
以遺傳性肺囊性纖維化為例,這種疾病在歐美白人中表現為跨膜氯離子轉錄因子突變所導致的功能缺失。但在中國患者中,此轉錄因子突變的發生率就小得多。
「預測疾病風險和診療時,對於亞洲人種而言,僅對照現有參考組,可能會產生較大的偏差。」高佔成說,這種偏差還會影響標靶藥物的研發。
2003年,國際知名藥廠阿斯特捷利康在全球率先研發成功表皮生長因子受體酪胺酸激酶抑制劑(EGFR-TKI)-吉非替尼,適用於存在表皮生長因子受體(EGFR)基因突變的非小細胞肺癌患者。
隨後的研究發現,EGFR基因突變存在明顯的種族特異性。中國和東亞種族不吸菸肺腺癌患者的突變率明顯高於歐美白人患者。
「目前的主流觀點認為,不同人種基因組之間的差異只有千分之一。但從臨床實踐來看,實際差異可能遠大於這個數字。」高佔成說,「所以,我們有必要建構中國人自己的參考基因組。”
但對一個臨床醫師來說,這是一個全新且較難攻克的課題。
2020年,一個合適的契機到來。
這一年,設在山西省臨汾市中心醫院的高佔成呼吸科山西工作室開始籌建。
「這個工作室絕不能只掛個牌子,要有具體的課題,能解決實實在在的問題。」高佔成說,繪製中國人自己的參考基因圖譜被提上日程。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0201/a3d7c6ecd966731.webp?w=640&ssl=1)
「唐堯」課題組高佔團隊
他立即聯繫他帶的第一個博士生,也是多年的合作夥伴——中國科學院北京基因組研究所研究員康禹。
「我當然很高興能參與這項工作。」康禹說,「我們判斷,現在的技術發展是建立中國人參考基因組的最佳時機,可以讓我們以較少花費、較短時間完成這件事情。”
為華人基因組研究提供更準確的座標系
何忠何許人?為什麼何忠的基因組可以稱為參考基因組?
康禹說,選擇合適的樣本是第一步。悠久的歷史、多元的地理氣候環境,塑造了中華民族獨特的遺傳多樣性。 「『唐堯』基因組是研究的起點,我們決定從人數最多的漢族開始。」康禹說。
「建構中國人自己的參考基因圖譜,目的是為了更好地服務現代醫學應用,所以樣本需要更好地代表現代中國人的基因組特徵。」康禹說,最終他們確定的樣本來自一名現在生活在山西省洪洞縣一個古老村莊的健康男青年-何忠。
這個地區是明代洪洞移民,也就是歷史上有名的「大槐樹」移民的起點。 600多年前的這場遷徙持續了近半個世紀,大量移民遍布中國各地,有些進入東南亞。 「我們認為何忠的基因組有望成為現代漢族人群的代表。」高佔成說。
根據祖源分析,「唐堯」基因組的絕大部分為東亞人群特徵。 「這個樣本的Y染色體的分型在中國除了新疆、西藏等地外都有廣泛分佈,極具代表性。」康禹說。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0201/2e808bc0405224a.webp?w=640&ssl=1)
「唐堯」課題組康禹團隊
「唐堯」 基因組提示了中國人和歐洲人基因組水平的顯著差異。對照國際科學團隊「端粒到端粒(T2T)」聯盟(以下簡稱「T2T」聯盟)於2022年發布的新版本人類參考基因組T2T-CHM13,「唐堯」顯示11%差異序列和5%差異基因。
中國科學院院士陳潤生說,「唐堯」彌補了漢族高品質基因組的空白,完整的中國人基因組序列的發布,也將改變以往認為不同人種基因組之間只有千分之一區別的認知。
張學認為,「唐堯」基因組將為漢族中國人基因組研究提供更準確的定位基因和變異的座標系,同時解決歐洲血源參考基因組不適於中國人基因組研究的技術障礙。這將為我國醫學基因組研究,包括遺傳疾病診斷、常見疾病風險預測、腫瘤基因組變異、藥物基因體學等領域,並建立技術體系與品質基準。
中國工程院院士程京認為,「唐堯」基因組定序分析工作不僅具有非常重要的跨學科、跨領域的基礎研究意義和應用價值,而且從DNA層面回答了「何以中國人」這個重要的社會科學問題,將幫助我們回答中國人起源、遷徙、歷史沿革和交流等問題。
用兩年時間完成國際領先的品質標準
配置最先進的定序儀器和最精幹的研發人員,「唐堯」計畫以最快速度啟動。僅花了不到兩年時間,2023年8月,計畫組獲得何忠的完整無間隙高品質基因組序列。
結果超出課題組的預期。
經過國際通用的評估基因組品質的重要工具Merqury評估,「唐堯」的品質值達到了參考基因組的品質標準,品質值為Q74.69,而T2T-CHM13的品質值為Q73.94。
「這個數字說明我們的參考基因組的錯誤更少,拼接品質高於T2T-CHM13。」康禹說。
將時間指針撥回到30多年前。 1990年,在生命科學領域被譽為「登月計畫」的人類基因組計畫啟動。 11年後,該計畫發布了人類基因組工作草圖。又過了兩年,研究人員公佈了當時被稱為人類基因組「完成圖」。
此後數年,研究團隊持續改善人類基因組空白區,但仍有約8%的序列缺失。
直到2022年,「T2T」聯盟填補了缺失的「拼圖」碎片,發布了T2T-CHM13新版本參考基因組。在這項成果中,科學家們成功地在人類基因組中增加了大約2億個鹼基,解碼了從1號到22號染色體上的大部分空缺。而唯一被遺漏的,是人類所有染色體中最小的一條──Y染色體。
2023年,隨著兩篇研究論文發表在頂尖學術期刊《自然》上,人類Y染色體的完整序列終於展現在世人面前。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0201/3421244ba9c2541.webp?w=640&ssl=1)
Y染色體是人類24條染色體中最後一個完成定序的
也就是說,國際基因組計畫花了30多年的時間才獲得包括Y染色體在內的人類完整單倍體基因組序列。
「唐堯」課題組同樣拿到了這一結果。他們在世界上首次獲得包括46條染色體的真實人類二倍體基因組序列(44+XY),能99.99%準確地區分來自父本和母本的兩套單倍體基因組序列。
2022年,「T2T」聯盟測的是一個單倍體,即所採用的DNA序列不是來自自然人的組織樣本,而是來自女性子宮中的水泡狀胎塊(葡萄胎)細胞株-CHM13。
當時,「T2T」聯盟聯合主席、美國華盛頓大學霍華休斯醫學研究所研究員艾文艾克勒對媒體表示:「我們現在已經補全了一個人類基因組,下一個重點任務是補全二倍體基因組的父系和母系。”
「唐堯」課題組做到了。
「和’T2T’聯盟能補上最後的’拼圖’一樣,我們之所以能快速獲得這一成果,也得益於DNA測序和拼接技術的快速進步,以及包括國際基因組計劃在內的大量技術和理論累積。”康禹說,“我們取得成果是因為站在了前人的肩上。”
這並不是只要有儀器、有資金就能完成的工作。 「兩年裡,我們的團隊夜以繼日,創新了大量演算法和拼接方式。這才能夠實現高準確度地區分相似度極高的基因片段,實現高於NIH參考基因組的準確度。」高佔成說。
避免「西方人比中國人更了解中國人」的尷尬
「這是中華民族群體遺傳學研究的一個新起點。」中國科學院北京基因組研究所原副所長於軍說,「接下來,我們將推進其他有代表性的個體參考基因組測序,並開展不同民族等群體的測序,最終我們希望啟動全民基因組測序工程。”
回顧過去,中國在基因組學技術領域的發展,可以說是從參與到同步。
陳潤生回憶說,1994年,國家自然科學基金資助開展中華民族基因組若干位點基因結構研究項目,標誌著我國人類基因組研究正式啟動。
1999年,中國拿到了國際人類基因組計畫1%任務。以華大基因和中國科學院基因組所研究人員為主力的科學家團隊,高品質完成了這項定序任務,帶動我國基因組學快速發展。在過去的20多年裡,我國的基因組技術和研究取得了飛躍式的進展。
在建構中華民族自己的參考基因組方面,我國科學家也一直在努力。
「炎黃一號」是全球第一例華人標準基因體序列圖譜,也是全球20億黃種人的首個個人基因序列圖。本計畫完成於2007年10月11日,是我國科學家繼承擔國際人類基因體計畫1%任務、國際人類單體型圖譜10%任務後,以新一代定序技術100%獨立完成的中國人基因組圖譜。
隨後暨南大學、中國科學院北京基因組研究所等單位陸續進行了類似研究。但受限於當時的技術手段,這些基因組並未成為我國實際應用中的參考基因組,未發揮應有價值。
2023年,復旦大學、西安交通大學、中國醫學科學院等26個單位聯合發布了中國人群泛基因組聯盟第一期研究進展。該研究初步建構了首個中國人群專屬的泛基因組參考圖譜,且該成果全部由中國科學家獨立完成。
在此基礎上,專家認為,我國要加快建構中國人自己的基因組研究「座標系」的腳步。
20多年前,在人類基因體計畫基礎上,美國正式提出全新的大科學計畫—精準醫學計畫。該計劃最終目標是測定每個人的基因組,也稱為「全民基因組計劃(All of Us 研究計劃)」。 2022年,該計畫研究計畫公佈了第一批近10萬人的全基因組定序數據供研究人員使用。數據包括身高、體重和血壓等基礎數據和調查數據,例如關於參與者的人口統計、生活方式和整體健康狀況的數據。
高佔成說,一旦美國的全民基因組計畫完成包括500萬美籍華人在內基因組定序,完全有可能形成「別人比我們自己更了解中國人基因組」的局面。
近年來,國際科學家共同成立了人類泛基因組聯盟(HPRC),試圖建立更精準完整的世界主要人群的參考基因組,以了解世界人口的多樣性。去年5月,HPRC製作的首個人類泛基因組參考草圖在《自然》發布,納入了全球47個樣本,其中包括3個中國南方漢族樣本。
張學關注到一個現象:基因組領域最主要的兩個國際聯盟——國際人類泛基因組聯盟、國際T2T基因組聯盟,其中的重要成員都是來自歐美的大學和研究所,我國研究機構和實體並不在內。
「在這種情況下,建立中國人自有的高品質參考基因組是防止被『卡脖子』的關鍵一步。」張學說。
「接下來我們將對『唐堯』進行進一步的解析和註釋,讓它能更好地應用於臨床。」康禹說,我們希望基於自己的參考基因組發展出服務華人的靶向測序、基因組分析和診療技術,並推動未來的新藥研發。
亟待建構中國人自己的基因組技術體系
受訪專家預計,T2T-CHM13以其完整性和高品質,有望逐漸取代目前正在使用的GRCh38參考基因組。
陳潤生和中國檢驗檢疫科學院體外診斷試劑所副所長黃傑均建議,在新舊參考基因組交接之際,我國應建立國家標準,推廣使用“唐堯”作為中國人群基因組研究和臨床應用中測序和分析的標準物質和參考基因組,不再使用歐洲人的參考基因組來定義中國人的遺傳變異。同時,在此基礎上建立中國人基因體學知識架構與應用技術體系。
於軍等科學家認為,要達成上述目標,我國人類基因組研究亟待進一步強化頂層設計與規劃。“由誰來測,給誰用,數據安全如何保障,這些問題都需要係統研究。”
1993年,於軍參與人類基因體計畫這項里程碑式的科學計畫。在導師梅納德·奧爾森的全力支持下,促成了中國科學家參與人類基因組計畫。
多年來,中國的基因組研究計畫是什麼,如何建立自主的基因定序技術和數據體系,這些問題在於軍的腦海中揮之不去。
於軍認為,我們目前的相關研究仍然是相對零散的,所進行的群體研究規模較小,且資料所有權分散在不同研究者手中,無法共享資料整合創新,造成了資源浪費。
研究與應用的分離,也是目前存在的突出問題。於軍說,我國基因組領域的基礎科學研究、臨床准入、應用規範由不同部門管理,資訊溝通效率不高,造成應用需求難以對基礎科研起到有效牽引作用,基礎科研與臨床應用之間無法形成有效回饋和良性循環。為了促進基因組領域基礎研究與臨床醫學的合作與交流,北京大學人民醫院於今年1月成立了人類基因組研究中心,以深入拓展「唐堯」基因組的相關研究與醫學應用。
於軍認為,在陸續建構中國人自己的參考基因組的基礎上,未來如何推動更大規模的人群測序,最終實現全民測序,真正推動精準醫學的發展,都是當前必鬚麵對的課題。 “你測幾百人,我測幾千人,這些數據除了發表一些看起來還不錯的論文,大部分並沒有推動臨床診斷、新藥研發等實際應用。”
針對這種現狀,專家認為,目前亟待整合有限資源,包括資金、人才、樣本資源、基礎建設等條件,集中管理樣本和數據,有效協調資源。
「我們可以探索成立一個類似國家人類基因組研究與管理中心這樣的機構。」於軍建議,該機構採用中央決策、專家委員會監督指導、中心執行的管理模式,統籌科技資金,協調社會資源,規範技術標準,促進科技轉化,防範安全風險。 “以此實現自主建立我國具有國際競爭力的人類基因組技術體系和知識框架的目標。”