以前要24小時的基因組測序中國團隊只用了7分鐘
一到年關,最不缺的就是各種盤點總結了。這不,中國機構實現了7 分鐘完成30X 測序深度人類全基因組測序的成績,時隔3 個月又被提了起來。聽不懂沒關係,我們只需要知道,這個成就意味著基因篩查將有可能進入常規體檢項,遺傳病檢查也可能像咽拭子檢測一樣立等可取了。
比如鐮刀型貧血症、先天性心髒病等所有由於基因異常引起的疾病,都可以通過基因檢測的方式早發現早預防早治療,特別是在生育健康方面意義重大。
但是目前的基因檢查項目大多只針對常見遺傳病做篩查,一些罕見的遺傳病很難被檢測到。並且檢測機構出具報告一般都需要20 天以上,檢測項目週期太長。
華大醫學單基因遺傳病檢測的部分項目。▼
中國團隊把人類全基因組測序所需要的時間,直接壓縮到了7 分鐘,相當於給生物學界開通了一輛和諧號,得到生物的全部遺傳信息,那都是分分鐘的事。
想知道7 分鐘的意義有多大,那就先來搞清楚全基因組測序是什麼吧。
基因測序就是把DNA 信息轉換成人類可讀取的數字信息過程,而全基因組測序,就是把生物的所有DNA 信息全部轉化為數字信息。
讀取一整條DNA 鏈的鹼基排列信息,不僅速度慢,而且很容易出錯。在實際操作過程中,DNA 長鏈會被切割成許許多多的小片段並同時進行測序,這樣可以大大減少測序時間。
雖然小片段序列信息的獲取更快更容易,但是這也帶來了一個新難題,如何把這些小片段正確拼接還原成完整序列?
玩過拼圖的人都知道,判斷兩塊零片是不是相鄰位置,需要參考它們的圖案有沒有很好地吻合在一起。
拼接DNA 片段也一樣,兩條片段是不是相鄰位置,要看它們末端的序列能不能完全重疊。
只要兩條序列首尾兩端分別存在相同的序列,這兩段序列就可以合併成一段。
當然了,這是運氣好的情況,兩段相鄰片段可以順利找得出來。如果運氣不好的話,在某一處斷點就有可能找不到和它吻合的片段。
為了保證測序片段能夠覆蓋整個基因序列,常用的手段只有以量取勝。把十幾倍幾十倍的片段往模版裡填,如果還存在填不上空的情況就該去買彩票了。
但是片段數量的翻倍直接導致的後果就是拼接工作量的指數增加,畢竟拼1000 塊拼圖花費的時間可不止是100 塊拼圖的十倍。
這個工作量有多大呢?我們放在具體的測序案例中計算一下。
以人類全基因組測序為例,人類有23 對染色體共3.2Gb 鹼基對數據,一般測序的片段大小會選擇在150-350bp 範圍內,也就是說,對人類基因組測序至少需要處理10000000 的片段數量。
而為了提高測序準確率和覆蓋度,片段的序列數據一般會遠超基因組數據。比如常用的30X 測序深度,測序得到的總數據達到了基因組數據的30 倍,序列數量大約增加到了300000000 段。
粗略估算一下,數據讀取300000000 次才能組裝好一對小片段,第二次組裝則需要至少再讀取150000000 次,以此類推。
對數據讀取次數有了概念,我們再換算一下數據的內存佔用量。據不准確計算,1bp 鹼基大概佔用3B 內存,那麼30X 測序深度的人類全基因組大概需要佔用接近300GB 內存。
別說讀取分析數據了,光是存起來就足夠把計算機搞死機了,所以這樣的任務一般都交給專業測序公司強大的服務器來做。而業界目前的水平,完成人類全基因組的拼接至少需要24 個小時。
這樣一對比, 7 分鐘能完成24 小時的海量數據處理工作,確實強得一批。難道是超級CPU 出現了?
CPU 還是那些CPU,不過是有新的數據處理方式出現了。
我們把數據讀寫看作是往倉庫裡運包裹,大大小小各種包裹都要往裡裝,無論物件大小全部按順序擺放的方式,不僅搬運效率低,空間利用率也不高。
正確的方法是將小包裹收納打包進大箱子,再和其他大包裹一起順序擺放,不僅提高了整體的空間利用率,也縮減了搬運時間。
這就是7 分鐘辦完24 小時工作的原因之一,大數據直接寫入,小文件聚合成大文件再寫入,不僅存得快,還存得多。
海量數據秒處理的另一個秘訣就是“ 天下大同” 。
通常情況下,不同類型的數據互相不認識,需要藉助單獨的協議進行私密對話,調用上不太方便。
想提高數據的調用效率,那就讓它們都來廣場上喊話好了,露天場地找人總比在小區裡挨家挨戶找人要快得多。
只要打破不同數據間的加解密邏輯,使用統一的數據訪問協議,免去加載過程,就可以實現對磁盤內所有數據的快速調用。
除了這兩項突破性的數據處理方式,一些硬件軟件上的加強也促成了這項7 分鐘的成就。
比如說壓縮磁盤大小,改造服務器結構,用相同體積放置更多數量的固態硬盤,實現更大容量的數據存儲功能。
另外該平台還開發出了多線操作的數據讀寫模式,能夠把處理數據的速度再提升一級;並且還改進了數據壓縮算法,能夠以更小的磁盤容量處理更多的數據。
種種創新技術的強強聯合實現了海量數據分析24 小時到7 分鐘的飛躍。連天文數字規模的生物信息都能在幾分鐘時間內進行處理,還有什麼做不到的呢。
這個7 分鐘的意義不僅僅是快速獲得全部基因信息,也是數據處理領域中十分重要的一項突破。
類似一些需要精密計算並且數據量龐大的應用領域,用上中國自己的服務器來處理,又快又安全。
例如衛星遙感,藥物研發,能源勘測等,都需要對海量數據進行分析;而自動駕駛之類的技術則要求了數據的實時反饋,數據的高速運算處理能力必不可少。
換句話說,馴服了數據就相當於把握住了科技命脈,得數據者得天下。依附在這個基礎上的所有領域,都得鉚足了勁再卷一波。
說不定,一直以來磕磕絆絆的AR 眼鏡,很快就可以普及了。