一個咖啡杯裝下全世界的數據DNA存儲晶片神奇在哪?
我們正處於數據爆炸的時代,全球數據量呈指數級增長! 國際數據機構 IDC 預測,2025 年,全球數據量將達到 175ZB,5 年平均復合增長率 8%。 1ZB 等於 1 萬億 GB,如果 175ZB 數據用容量 1GB 的移動硬碟來裝,至少需要 175 萬億個硬碟。 在未來,數據存儲問題將成為互聯網發展的痛點。
為了解決數據存儲這一難題,受生物學的啟發,研究人員瞄準了人體內的DNA。
最大的人類染色體含有近 2.5 億個鹼基對,如果每個鹼基對上都能存儲數據,理論上,麻省理工學院生物工程教授 Mark Bathe 說,一個裝滿 DNA 的咖啡杯就可以存儲世界上所有的數據。 這樣看來,存儲 175ZB 的數據也就不在話下了。
這樣一個前景可觀的新興存儲技術,在今年 3 月被寫進”十四五”規劃綱要草案中。 不僅如此,2021 年層出不窮的相關研究及落地進展,令 DNA 存儲技術愈發受到關注。
例如 1 月 11 日,Nature 子刊上發表了哥倫比亞大學將 hello world 翻譯成鹼基語言錄入大腸桿菌 DNA 的相關論文;5 月 26 日,由中科院深圳先進技術研究院孵化的中科碳元成立,專注於推進 DNA 數據存儲研發及商業化;11 月 12 日,東南大學劉宏團隊將校訓”止於至善”寫進 DNA 的論文發表於 Science Advances;11 月 24 日, 微軟公佈首個納米級 DNA 儲存寫入體……
需要注意的是,廣義上的DNA晶元是基因組學和遺傳學研究的工具,指在固相支援物上原位合成寡核苷酸或者直接將大量預先製備的DNA探針以顯微列印的方式有序地固化於支援物表面,然後與標記的樣品雜交。 因為其支援物表面常是計算機晶元,因此稱其為DNA晶元。
DNA 晶片類型多樣,包括檢測基因、染色體或用於臨床診斷用的晶元,而其中模仿DNA分子結構進行數據存儲的是我們今天討論的重點,也就是DNA存儲晶片。
01. 鹼基與二進位對應,人手長的DNA鏈可儲存10億 G數據
從遠古石牆上刻的圖案到文字的出現,再到最重要的資訊載體書籍的產生,我們產生的信息其實並不多。 但自從進入資訊時代,人類在過去50年裡記錄的信息已經遠遠超過過去2000年的資訊。
我們處在資訊爆炸的大數據時代,所有互聯網中的資訊都作為數據保存下來,從網頁、應用程式到安防、衛星領域應有盡有。
根據國際數據組織 IDC 的數據,2013 年至 2015 年全球大數據存儲量分別為 4.3ZB、6.6ZB、8.6ZB,增速維持在 40% 左右,而到 2016 年全球大數據存儲量達到 16.1ZB,增長率達到 87.21%。 2017 年至 2019 年全球大數據存儲量分別為 21.6ZB、33ZB、41ZB,2020 年全球數據量達到了 60ZB。 在大數據領域不斷發展的同時,為了滿足海量的數據存儲需求,存儲方式也在不斷發生變化。
▲ IDC 監測 2015-2020 年全球數據量變化趨勢以及 2025 年預測
DNA 是儲存遺傳資訊的載體,攜帶有合成 RNA 和蛋白質所必需的遺傳資訊,它可以對生物的所有資訊進行編碼。
上世紀 50 年代,就有研究人員發現了生物特徵和人造物體的關係。 DNA 分子由四種鹼基組成,數據由二進位 0 和 1 組成;DNA 用來儲存遺傳資訊,數據正好需要一個介質存儲,由此蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)想到,是否可以參考 DNA 結構來存儲數據?
與傳統的存儲介質不同,DNA 存儲技術有如下顯著優勢。
首先是DNA存儲密度高。 一個 DNA 分子可以保留一個物種的全部遺傳資訊,最大的人類染色體含有近 2.5 億個鹼基對,那麼就意味著一條和人手差不多長的 DNA 鏈,就可以存儲 1EB(1EB=10.74 億 G)數據。
與硬碟和快閃記憶體的數據存儲密度相比,硬碟存儲每立方釐米約為1013位,快閃記憶體儲存約為1016位,而DNA存儲的密度約為1019位。
其次是DNA分子存儲具有穩定性。 今年 2 月,國際頂級學術期刊 Nature 上的一篇論文稱古生物學家在西伯利亞東北部的永久凍土層中提取到距今 120 萬年猛獁象的遺傳物質,並對其 DNA 進行了解析,這也進一步刷新了 DNA 分子的保存年代紀錄。
據悉,DNA 至少可保留上百年的數據,相比之下,硬碟、磁帶的數據最多只能保留約 10 年。
最後,DNA 存儲維護成本低。 以DNA形式存儲的數據易於維護,和傳統的數據中心不同,不需要大量的人力、財力投入,僅需要保存在低溫環境中。
在能耗方面,1GB 的數據硬碟存儲能耗約為 0.04W,而 DNA 存儲的能耗則小於 10-10W。
02. 低成本擴大規模 可放置數百萬個DNA序列
上個世紀 50 年代,科學家已經提出創建人造物體與微觀世界的生物特徵相似的想法,並且認為該人造物體將具有更加廣泛的能力。 不到十年,蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)就獨立提出了可以利用 DNA 和 RNA 分子來進行資訊記錄、存儲和檢索的可能性。
DNA 進行數據存儲的應用真正開始於 1988 年,藝術家喬大衛斯和哈佛大學的研究人員合作,在大腸桿菌的 DNA 序列中,將一張代表生命和女性地球的古代日爾曼符文圖片,通過 5×7 的矩陣存儲到 DNA 序列中。 他們用二進位中的 1 代表圖片中的暗圖元,0 代表圖片中的亮圖元。
在之後的研究中,研究人員提出了多種DNA存儲的編碼方式。 2011年,研究團隊對一本 659KB 的書籍進行編碼,通過一對一對應,由腺嘌呤或胞嘧啶表示二進位中的 0,鳥嘌呤或胸腺嘧啶表示 1。 然而,最後研究人員檢查數據存儲結果時發現,在DNA中出現了22個錯誤。 這種一一對應的編碼方式的精度較低。
DNA 是由四種鹼基結合成鹼基對,並組成螺旋結構。 四種鹼基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然後依據鹼基互補配對原則,來排列 DNA 分子儲存遺傳資訊。 這四個代碼也為DNA存儲晶片提供了一個合適的編碼環境。
▲ DNA 分子結構示意圖
DNA 存儲技術包括資訊編碼、存儲、檢索、解碼四個步驟。 在計算機中,數據存儲需要用二進位 0 和 1 來表示,使用 DNA 來儲存數據首先需要將 0 和 1 轉化為 DNA 中的四個鹼基 A、C、T、G,創建具有正確鹼基序列的 DNA 螺旋結構。 合成DNA後在體內或體外進行存儲。 在解碼時,DNA 測序儀會轉錄該DNA結構中的鹼基序列,通過解碼軟體將其轉化為0和1,還原數據資訊。
2012年,哈佛大學的研究團隊證實,DNA 可以作為一種和硬碟驅動器、磁帶類似的存儲介質。 他們通過DNA對數位資訊進行編碼,包括53400位元組的HTML草稿,11張 JPG 圖片和一個 JavaScript 程式,利用位與鹼基一對一映射,但這種方式會使得相同鹼基長時間運行,測序過程容易出錯。
這種簡單的一對一編碼形式,在2013年得到了突破。 歐洲生物資訊學研究所(EBI)的研究人員在論文中稱,他們已經實現了超過 500 萬位數據的存儲、檢索和複製,並且所有 DNA 檔都以 99.99% 到 100% 的準確度再現了資訊。 在編碼過程中,研究小組加入了糾錯編碼方案,並採用了可通過序列識別的重疊短寡核苷酸的編碼方式。
此後,哥倫比亞大學、華盛頓大學、帝國理工學院等研究團隊都開展了一系列研究。
為了證明DNA編碼數據的長期穩定性,2015年2月4日,蘇黎世聯邦理工學院的研究人員在國際頂級期刊 Angewandte Chemie International Edition 上發表了相關論文,研究人員通過 Reed-Solomon 糾錯編碼和溶膠、凝膠將 DNA 封裝在二氧化矽玻璃球中來增加冗餘,而這可能是 DNA 儲存晶片的最早期形態。
2021年11月起,多個研究團隊公佈了DNA存儲晶元研究的新進展,包括我國東南大學、微軟研究院、伊利亞諾州西北大學以及喬治亞理工學院的研究小組。
11 月 12 日,我國東南大學生物科學與醫學工程學院、生物電子學國家重點實驗室的劉宏團隊成功將校訓”止於至善”存入一段 DNA 序列中,該論文發表於 Science Advances。
為了實現DNA存儲的微型化、集成化、自動化,該研究小組對測序過程進行了優化。 基於電化學的單電極DNA合成和測序方法,通過電化學脫保護技術改進傳統亞磷醯胺化學合成方法,並基於電荷震蕩現象對電極表面的DNA分子進行測序,成功將校訓進行編碼和解碼。
▲ 劉宏團隊基於電化學 DNA 合成與測序的DNA資料儲存系統流程圖(圖片來源為東南大學官網)
11 月 24 日,微軟研究院與華盛頓大學分子資訊系統實驗室(MISL)合作在 DNA 儲存上取得突破的論文發表於 Science Advances 上,該研究小組公佈首個納米級 DNA 儲存寫入器,DNA 晶片上的分子控制器和 DNA 寫入配有 PCIe 介面,可以一次性構建四股合成 DNA,產生包含 100 個鹼基的 DNA 鏈。
微軟研究院稱,更長的DNA鏈會容易出現錯誤,但隨著硬體的發展,這都會得到改進。 該項實驗證明瞭DNA螺旋結構擴大存儲規模的可能性。
今年 11 月 29 日,伊利諾伊州西北大學合成生物學中心提出了將資訊記錄到 DNA 的新方法發佈於《基因組學研究(Technology Networks)》期刊中,在編碼環節他們試圖通過 DNA 本身具有的能力來創建一種新的數據存儲解決方案。
在實驗過程中,他們使用一種新的酶促系統來合成DNA,將快速變化的環境信號直接記錄到DNA序列中。 西北大學工程學教授 Keith EJ Tyo 稱,通過直接控制合成 DNA 的酶,可以實現提前表達和連續存儲資訊。
為了使 DNA 數據存儲在擴大存儲規模的同時能降低成本,12 月 1 日,喬治亞理工學院(GTRI)高級研究科學家尼古拉斯・吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)採訪時說:”我們新晶片上的功能密度大約比當前的商業設備高出 100 倍。 ”
他們設計的晶元可以以極低的成本,通過超密集格式使DNA鏈實現增長,獲得大規格的儲存容量。 這個微晶元配備了 10 組幾百納米深的「微孔」,使得 DNA 分子在這中間平行生長,最終在晶片上積壓了數百萬個 DNA 序列。 相比於傳統的合成 DNA 製造過程,這種方法採用電化學局部啟動合成,成本更加低廉。
▲ 喬治亞理工學院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)
03. 合成 2MB 需要 7000 美元 讀取需要 2000 美元
不斷的研究表明,DNA 存儲技術將成為跨時代的存儲方式。 但從上世紀 50 年代提出至今,其發展一直沒有重大的實質性進展。 微軟研究院作為DNA數據存儲的早期入局者,2015 年開始進行相關研究,直到2019年才有研發進展,他們展示了一個全自動系統來編碼和解碼DNA中的數據資訊。
DNA 存儲晶片能夠實現高密度、長時間的存儲特性,但目前該項技術還不能廣泛運用於計算機領域,目前主要針對一些不常用但需要保存的內容。 DNA 儲存晶片無法商業化,大概有以下幾點原因。
首先,DNA 存儲數據的寫入和讀取成本高昂。 2017年哥倫比亞大學的實驗顯示,合成 2MB 的 DNA 數據需要 7000 美元,而讀取數據需要 2000 美元,儘管這相比於 2013 年每兆 12400 美元的成本已經大大降低,但如果使用者需要以 DNA 形式儲存 1GB 的電影,編碼大約需要花費 358 萬美元,而讀取數據還需要 102 萬美元。
其次,DNA 存儲數據的解碼過程需要大型工具。 目前DNA存儲技術的解碼過程,還需要依賴測序儀對DNA分子進行排序,市面上量產的測序儀大多都用於小型實驗室、臨床應用等時效性要求較高的場景,距日常使用還很遠。
▲ 測序服務供應商 Illumina 的測序儀產品 iSeq 100(圖片來源為 Illumina 官網)
此外,DNA 存儲技術的讀寫速度慢。 2021 年 12 月初,喬治亞理工學院的研究將 DNA 存儲速度提升到了每天寫入 20GB 數據,目前固態硬碟的讀寫速度大約為每秒 500MB。 IDC《數據時代 2025》的報告顯示,全球每年產生的數據在 2025 年將達到 175ZB,相當於每天產生 491EB 的數據。 即使 DNA 儲存晶片的密度足夠大,其實時讀取速度也無法滿足當前的數據存儲需求。
DNA 存儲晶片是未來大容量存儲較為理想的介質,目前的研究進展大部分都處於概念驗證階段,其硬體設備的落地還需要很長一段時間。
04. 結語:DNA 存儲商業化的關鍵,實現低成本、高密度
DNA 儲存晶片存儲密度高、穩定性高、易於維護的優勢決定了它成為下一代存儲設備的可能。 不過該項技術的進一步商業化還有很多限制,例如成本高昂、存儲環境限制較多、即時讀取速度慢等,這些都表明其變成主流存儲設備還有很長一段路要走。
我們處於數字時代,從智慧手機、平板、PC 到可穿戴設備每天都會產生大量資訊,因此這個現實條件決定,找到性能要求更高且更加低成本的存儲設備迫在眉睫。
DNA 的半衰期為521年,在一個冰冷或合適的條件下,DNA可以持續存在數十萬年,甚至幾百萬年,如果DNA存儲技術真正實現商用,在未來,我們的數據檔案可能將變成”化石”留存下來。