中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時
這是來自中國的一支團隊”合力出成績”、一舉打破的世界紀錄:全球首次將人類全基因組分析,推進分鐘級時代。 這支團隊,由三家來自中國的機構共同組建。 他們這次所做的具體任務,叫做30X人類全基因組測序(WGS)胚系變異分析。
(其中,”30X”是指全基因組測序的深度)
而在這個團隊之前,同等條件下完成這項任務所需的時間,卻長達近24小時之久。
所以咱就是說,現在的「battle」結果就是——24小時vs 7分鐘,性能整個提升了200多倍!
與此同時,在相同條件下的計算成本還降低了80%,存儲成本也下降30%。
但更重要的一點是,這事可能和你我都息息相關。
因為基因預測的一個用途,就是檢測罹患多種疾病的可能性,鎖定個人病變基因,以此來提前預防和治療。
(P.s.世界著名演員安吉麗娜裘莉就這麼做過。 )
聽起來確實是個好事,但如果放到過去,由於既耗時又費錢,能做得起基因預測的人屈指可數。
但今時不如往日,隨著算力、AI、大數據技術的不斷發展和融合,讓基因測序這樣數據密集型應用變得越發親民。
而這一次的”7分鐘”,可以說是把基因測序這件事往“平民時代”更推近了一步。
△圖源:美國國家衛生研究院(NIH)
那麼接下來的問題便是,為什麼這支隊伍的方法,就能做到「快好省」呢?
從24小時到7分鐘,他們是怎麼辦到的?
人類全基因組測序要做的事,就是對未知基因組序列的物種進行個體的基因組測序。
但非常明顯的一個難題,就是其數量過於龐大。
畢竟物件可是組成人體2.5萬基因的約30億鹼基對,換算成容量大小則約為3GB。
但這還不算完,為了保障基因數據的完整性,在此基礎上還需要做30次的平行測試。
如此一來,在最終測序完成之後,全基因組的數據量便將達到約100G。
而且隨著技術的不斷反覆運算演進,數據的存儲已經從最初的人類基因組開始細分擴展,逐步涉及到腫瘤、遺傳病的檢測等等。
也正是因為數據量和數據種類的日益龐大,使得這方面的工作數據存儲,動輒便以PB為單位來保存。
這就直接影響到了諸如基因採樣、樣本製作、數據下機、生信分析以及后基因測序等環節。
但更為重要的是,諸如基因這樣的數據,隱私安全是非常值得注重的一環,而也正因為數據量的爆髮式增長,使得數據安全管理、存儲和分析變得異常困難。
團隊在面對這些挑戰所選擇的突破口,並不是大多數人以為的強行堆算力,而是用底層數據存儲的飛躍來做到提速。
簡單來說,就是通過把以往不能合併處理的海量數據,打破它們之間的壁障,讓整體的處理效率”更上一層樓”。
具體而言,他們所提出的解決方案便是大規模多組學數據並行加速分析平臺。
據介紹,華西醫院在這項工作中主要負責頂層設計,包括多模組學數據分析和基因應用等。
華為在存儲方面,提供高性能數據存儲和基因數據管理系統的技術支援。
……
而縱觀整個流程,數據存儲的環節最為重要,可以說是貫穿始末:
基因測序階段:存儲系統需要足夠的穩定性,來保障過程不被中斷;
基因數據分析階段:要有足夠處理小檔等任務的能力;
數據歸檔階段:能夠將基因數據長期、安全、完整地保存起來。
由此可見,存儲系統就像是一根「定海神針」,牢牢地把握著海量數據任務的”命脈”。
那麼接下來的一個問題便是——團隊此次能夠打破世界紀錄,它的專屬「定海神針」又是什麼?
世界頂級選手在背後發力
不賣關子,團隊在這項任務中的存儲系統,便是來自華為面向高性能數據分析(HPDA)的分散式存儲OceanStor Pacific系列。
它是一種可大規模橫向擴展的智慧分散式存儲,可以hold住高性能計算、AI應用、資料庫、大數據分析和海量數據備份歸檔等業務需求。
而OceanStor Pacific之所以能協助團隊在此次任務中打破世界紀錄,是因為它自身就是頭頂「世界頂級選手」光環的那種存儲系統。
在國內範圍來看,更是獨秀一枝,不論是整體、檔存儲、物件存儲還是塊存儲方面,都是穩居市場第一。
而且不僅是市場方面的表現,從性能榜單上來看亦是如此。
這不,就在前不久IO500 (高性能計算領域針對存儲性能最權威世界排行榜之一)發佈的最新榜單中,華為存儲HPDA Lab(由華為OceanStor Pacific存儲支撐)位列第二。
那麼問題來了,OceanStor Pacific系列存儲憑什麼?
從官方對它的介紹中,我們挖到了一條線索,那便是「新一代」:
這個”新”,可以總結為三個方面。
首先是超高密設計。
以OceanStor Pacific 9950為例,它具備單框8節點,5U、80盤位的特性。
而之所以能如此「能裝」,是因為它將各種SSD(固態硬碟)都設計的非常小巧:
另外一款5U、120盤位的OceanStor Pacific 9550,更是能夠達到單框最大可提供2.4PB的裸容量。
如此超高密度的設計,便可以支撐海量數據的存儲。
基於這樣的硬體設計之下,便是華為存儲的第二個特性——“多到一,一到多”,具體來講就是:
多套存儲變一套,一套存儲支持多樣化算力。
導致這樣做的原因,根本上是高性能存儲面臨的負載類型越發複雜多樣。
傳統的做法就是來一個負載類型,就部署一個對應類型的存儲;但這樣做的結果,就是容易產生”孤島現象”,而且不利於提高整體的效率。
而理想的狀態就是存儲系統可以滿足一個”既要又要”——高带寬、高IOPS。
(頻寬型方面的衡量標準是單位時間內的數據總輸送量;而IOPS則是單位時間內能處理的總的IO請求量、以及每個IO的處理時延。 )
對此,華為存儲所採用的策略就有點「隨機應變」的味道了。
例如存儲系統在面對大檔時,就對應「大I/O」,採用直通方式將數據寫到磁碟。
這樣做的結果,就讓大檔的寬頻處於業界2倍的水準。
而當與之相對的小文件到來時,就對應「小I/O」,主要是將數據聚合後寫到磁碟:
如此一來,就可以在理想的時延下提升磁碟空間的利用率,而且小檔的隨機性能也達到了業界的5倍。
OceanStor Pacific系列存儲的第三個獨特性,便是打通協定的”任督二脈”。
華為存儲提出這個特性的大背景,是因為現在在處理諸如基因測序這樣的任務時,數據往往會呈現多種格式,例如檔、物件、大數據等等。
也正因如此,以往在整個數據處理過程中,單是數據轉化、拷貝、載入這樣的工作就佔到了35%的時間。
於是,為了這方面的提高效率,就需要新的”協定互通”技術。
而這種新技術並不是指”共池”,在本質上是有著很大的區別。
“共池”主要共用硬體資源池,是在一套硬體上劃分出多個獨立的邏輯資源池,並根據不同的數據類型做部署。
但問題在於每個邏輯資源池只支援一種協定訪問,也就是說跨協定的時候,還是需要經過「數據拷貝」的過程:
華為存儲提出的”協定互通”技術則不然,實現的是多個協定共用一個硬體資源池。
而且還是同時支援檔、物件、大數據等多種協定訪問的那種:
換言之,現在當一份數據「走進」存儲系統後,不再需要做任何的轉換了,可以直接被其它協定直接訪問。
這便是打通協定”任督二脈”的奧義所在了。
而也正是因為剛才講到的這些獨有”功夫”,華為存儲,這個世界級選手所涉足的領域早已不僅限於基因測序。
還有眾多諸如此類的海量數據場景,例如能源勘探、氣象海洋、智能製造、超算中心等等。
……
不難看出,華為在數據存儲這一塊,可謂是內修功法、外用其力。
那麼最後一個問題便是:
數據存儲,為什麼這麼重要?
因為一個非常明顯的趨勢是:
在智能時代之下,數據存儲已經成為數據密集型應用的瓶頸。
或許你會說,數據量大,哪怕是PB級別,把算力堆上去不就可以了嗎?
確實,在過去一段時間里,在處理像基因測序、生物製藥等數據密集型應用時,大家似乎都會關注其背後的高性能計算(HPC)的效果如何。
每年的HPC Top 500 高性能計算機排行榜,也成為公眾備受關注的”保留節目”。
但隨著數據爆髮式的增長,以及AI技術的不斷推陳出新,數據密集型應用的發展不再僅僅聚焦在算力方向。
正如IDC所統計的那般:
全球67%的高性能計算中心已經在使用AI、大數據相關技術。
換言之,HPC、AI和大數據,它們三個融合的速度正在加快。
也正因如此,數據密集型應用正在步入一個新的時代——高性能數據分析(HPDA)。
在這個時代之下,類似自動駕駛、基因測序等任務,對於數據分析的即時性要求越來越高。
而要實現這一點,也正如剛才我們所闡述的,離不開”數據存儲系統”這一夯實的底座。
唯有這根「定海神針」足夠穩固、紮實,且需得具備技術上的創新,才能保證其上層的工作以及上層與之的交互暢通無阻。
但比起應用方面的絲滑,通過推進新一代存儲系統(即HPDA)來進一步發展數據密集型應用,這件事還具有更深遠的意義。
例如油氣地震勘探也在進入海量數據時代,需要採用大量的高性能計算和大數據分析技術。
但痛點也正如剛才我們提到的,其間的任務絕不是單一的,所產生的數據類型、結構也是紛繁複雜。
而通過新一代存儲系統的優勢,就可以做到規模化統一部署,以此來提高整體流程的效率。
再如超算中心、智慧醫療、自動駕駛,甚至是宇宙探測等,均是需要HPDA的能力來完成對海量數據的高效分析。
這些亟需注入”新力量”的領域,恰恰正是科技、經濟強國所發力的地方。
從另一種角度來看,新一代數據存儲正在成為國家的關鍵基礎設施,堪稱”國之重器”。
而華為OceanStor Pacific系列存儲,無論是從市場份額、技術實力排名等等,均已成為國產新一代數據存儲系統中的不二之選。
但比起亮眼的成績,在最重要的實際行動方面,華為OceanStor Pacific系列存儲也已經是處於”進行時”了。
至於接下來在HPDA時代中,新一代數據存儲的技術進步還將結出怎樣的碩果,是值得拭目以待了。