萬物皆硬盤一隻“兔子”實證DNA存儲無所不在
DNA硬盤將顛覆人們對數據存儲的認知。在我們目前的存儲世界裡,硬盤必須是硬盤的樣子,磁帶必須是磁帶的形狀,光盤也須是光盤的外形,而DNA硬盤則不受形狀所限。
原標題:萬物皆硬盤!一隻“兔子”實證DNA存儲無所不在,中國已列為重點專項|專家解讀
文/孫滔
來源:DeepTech深科技
為了證實這個說法,科學家用3D打印製作了一隻兔子,並且這隻兔子三維結構的數據以雙鏈DNA結構的形式內置在打印材料中。也就是說,通過編碼和解碼,這隻兔子模型實現了其自身數據的DNA存儲和傳遞。推而廣之,世界萬物皆可實現DNA存儲。
簡單說,數據寫入即是人工合成DNA,數據讀取即是DNA測序,數據的拷貝即是DNA的複制。
動圖|DNA數據存儲拓展了將信息直接嵌入日常物品的可能性。(來源:《連線》)
今天(北京時間12月10日),這項研究發表在了《自然-生物技術》(NatureBiotechnology)期刊上,通訊作者係MyHeritage首席科學家、哥倫比亞大學副教授YanivErlich和蘇黎世聯邦理工學院功能材料實驗室教授RobertGrass 。
Yaniv Erlich將作為演講嘉賓(點擊了解詳情)出席12月13日-14日在北京舉辦的第三屆EmTechChina全球新興科技峰會,與我們分享MyHeritage在生命科學領域取得的最新進展。他表示,會在北京演講現場向觀眾展示這只“兔子”。
首只DNA存儲數據的兔子
圖|包含了DNA數據的斯坦福兔子。(來源:蘇黎世聯邦理工學院)
這裡需要提到一個概念,斯坦福兔子(StanfordBunny)。這不是某個藝術工作者隨意的作品,而是一種計算機圖形學領域廣泛採用的3D測試模型,在1994年於斯坦福大學製作。
研究人員將斯坦福兔子的0和1的二進制數據轉換為DNA中4種鹼基的數據(A、T、C、G),進而將DNA片段封裝在二氧化矽小球內(小球大小為160納米),這些小球則被嵌入可生物降解的熱塑性聚酯中,最後使用所得的熱塑性聚酯來進行兔子的3D打印。
這是一個DNA存儲編碼的過程,由壓縮、糾錯和轉換3部分組成。在轉換為DNA數據之前,斯坦福兔子的二進制立體光刻文件大小為100KB,用以合成DNA編碼的數字藍圖被壓縮到了45KB,這是為了最大化地利用DNA存儲空間,需要對信息去除冗餘以達到壓縮的目的。
每個寡核苷酸長度為145個核苷酸,由104個有效片段與41個核苷酸的聚合酶鍊式反應(PCR)退火位點組成。隨後研究人員利用DNA噴泉編碼技術(DNAFountain),將數碼信息轉換為DNA序列信息,即1.2萬個DNA寡核苷酸,再將PCR擴增的寡核苷酸封裝到二氧化矽小球內,每個小球包含了數十個合成DNA分子。當然這個組裝採用體外人工合成的方式,這樣可避免細胞的排外性及受生物活動的影響。將DNA鏈封裝於二氧化矽小球中也是為了防止DNA降解。
圖|斯坦福兔子的3D打印與解碼原理圖,分為二進制數據轉換為DNA數據、DNA封裝、嵌入熱塑性聚酯、打印、DNA解碼等過程。(來源:《自然-生物技術》)
圖|斯坦福兔子的還原結構。(來源:《自然-生物技術》)
那麼,如何解碼呢?其原理是利用PCR技術對存儲的DNA片段進行複制擴增以備份,再對擴增得到的DNA片段進行測序,獲取鹼基序列後對序列糾錯、去冗餘、解碼,即可得到原始信息。
在這個研究中,研究人員利用存儲在兔子中的DNA來複製兔子數據。具體而言,研究人員從兔子耳朵處剪下10毫克的打印材料,這佔兔子總重量3.2克的0.3%,然後提取出其中的DNA(至此需4小時),擴增並測序(需17小時)。儘管有5.9%的原始寡核苷酸丟失以及存在測序誤差,但研究人員採用DNA噴泉解碼器完美解讀了斯坦福兔子的數據。解碼過程只需要在普通筆記本電腦運行數分鐘即可完成。
那麼由此循環,由前一代擴增的DNA被封裝到下一代中,研究人員連續創造出了5代兔子,且沒有任何信息損失。即使第四代和第五代之間相隔了9個月,DNA信息一直保持高保真性和穩定性。
為了擴展這個研究的場景,研究人員還將一段有關華沙猶太區檔案的視頻編碼進樹脂玻璃中,再用該樹脂玻璃製造了一副眼鏡。而只需一小塊樹脂玻璃,就能恢復其中隱藏的信息。
YanivErlich對DeepTech表示,這項研究最大的突破在於實證了萬物皆可實現DNA存儲的理論,且不受任何形狀限制。
1克DNA能存儲2.2億部電影
DNA數據存儲的密度之高令人難以置信。有數據稱,1克DNA即可儲存215PB的信息,而硬盤的存儲量不過幾個T。要知道,1PB=1024TB,而1TB=1024GB,按照高清電影每部10GB算,1克DNA能夠存儲2.2億部電影。
DNA信息的讀取不涉及兼容問題,且DNA是可降解的材料,相比其他存儲介質更加環保。此外DNA對於高溫、震盪等外部環境具有極強的抗干擾能力。
鑑於以上特點,加上DNA是按順序編碼存儲信息的,且存儲信息段存在起始點和終止點,還可以引入糾錯碼確保信息的完整性,於是,DNA就成了數據存儲研究領域的寵兒。尤其是那些不常用但卻需要長期保存的冷數據,例如政府文件、歷史檔案等尤其適合DNA存儲方式。
自從1950年代DNA雙螺旋結構被發現以來,科學家就萌生了用DNA的4種鹼基來存儲數據的想法。哈佛大學的GeorgeChurch教授團隊於2012年將一本Church著作的圖書數據(659kB)存儲在了DNA中,他們採用了二對一的對應關係,其中二進制的“0”用腺嘌呤或胞嘧啶表示,而二進制的“1”則用鳥嘌呤或胸腺嘧啶代表。
2017年,YanivErlich等人在《科學》雜誌上報告說,他們將6個文件存入了DNA中,這6個文件包括一個完整的計算機操作系統、一種計算機病毒、一部法國電影,和由信息論創始人、美國數學家香農(ClaudeShannon)在1948年進行的一項研究。
在《科學》雜誌的這項研究中,YanivErlich正是採用了斯坦福兔子研究中用到的DNA噴泉編碼技術,即將DNA片段隨機打包為“水滴”來儲存,這些水滴中添加了額外的標籤以便以後能夠重新組裝。該技術具有獨立隨機性,且編譯碼複雜程度低,有容錯糾錯機制,能高概率恢復存儲信息。
“萬物DNA”的障礙:成本高、時間效率低
研究人員將這個兔子硬盤的開發方式稱為“萬物DNA” (DNA-of-things,DoT)存儲架構,它可以生成具有不變記憶的材料。
那麼這個“萬物DNA”存儲架構有什麼應用呢?YanivErlich等人在《自然-生物技術》論文中舉例稱,在3D醫學或牙科植入物領域,因為每個結構都是唯一的,那麼就可以根據患者的精確解剖結構進行定制。鑑於二氧化矽小球是無毒的,那麼就可以將植入物的設計信息和其他醫學信息都存儲其中,如此就產生了長期的電子病歷備份,而傳統的電子病歷通常只保留5年到10年。
此外,作者認為此技術還可用於建築、藥品和電子元件等冷數據的存儲。
“萬物DNA”的另外一個應用是信息密寫術。因為各種日常物品均可以作為秘密數據的攜帶者,那麼數據盜竊者就面臨多重破解障礙:首先,因為二氧化矽小球不會改變儲存介質的特性,那麼破解者須測試多個物品才可能找到存儲介質。其次,因為DNA被隔離在二氧化矽小球中,那麼普通的DNA傳感技術如紫外線將不能檢測出DNA。再次,即使破解者恢復了DNA文庫,也需要找到退火位點才能通過PCR來擴增信息。
作者還認為,該技術強大的自我複制能力大有可為,它為本地化數據存儲和離線存儲找到了好思路。
目前,相關技術已有專利佈局。YanivErlich持有DNA存儲領域的專利;蘇黎世聯邦理工學院擁有DNA封裝的專利;YanivErlich和RobertGrass是“萬物DNA”(DoT)專利申請的發明人。
這隻兔子成本高昂,完成DNA數據存儲大約需14000元。對於成本問題,作者認為,雖然對於定制物品,DNA合成的成本仍然較高,但若要量產,DNA文庫的合成成本將變得微不足道。
不過,成本仍是障礙。儘管DNA合成和測序的成本每年均在呈指數下降,有數據稱從2002年的218750元/兆降至了2016年的4.41元/兆,但相對於普通硬盤存儲而言,這仍然費用高昂。
實際上,DNA存儲距離消費級應用尚遠的更重要原因是時間效率低下。YanivErlich說,“如果要應用到普通消費者,還需要實現測序儀的便攜化,以及樣品的極高效製備。”
從斯坦福兔子的編碼和解碼過程可知,整個過程需要數十個小時。這就意味著,若要擴大DNA的存儲應用範圍,除了降低成本還需實現像硬盤、磁帶那樣隨時隨地寫入或讀取信息的性能。
北京大學信息學院副研究員張成長期從事DNA分子計算和納米智能領域的研究,包括DNA計算與存儲、分子電路、自組裝納米孔器件和納米智能機器人等方面的研究。他告訴DeepTech,DNA存儲發展道路上最大的障礙是輸入和讀取的效率,時間成本是一個非常大的問題。“我可以在實驗室里花上一周時間來解碼,但沒有哪個普通消費者願意這樣等,而只要涉及到DNA擴增,這個時間要求就是必然的。”
這就需要DNA編碼、存儲和解碼均實現便攜化。隨著便攜式DNA測序儀的進一步發展,可能會實現隨時DNA測序。然而這只是解碼的環節。
中國重點專項已在佈局
目前,DNA存儲在國內屬於新興領域,革命性突破還需要領域內科學家共同努力。張成說,DNA存儲這個領域實際上是在2016年以後才開始加快步伐的,至於國內發展不夠快的情況有兩方面原因。其一是該研究領域的門檻非常高,需要計算機科學、生物學、化學等多領域協作。其二是DNA存儲技術雖然有廣泛的應用前景,但目前仍然存在時間上和成本上巨大的挑戰,“何時能真正意義上走入商業市場,還有賴於相關前沿DNA納米技術的發展”。
已經有大公司盯上了DNA存儲。自2015年起,微軟研究院與華盛頓大學的研究人員合作就開始開展DNA數據存儲研究,希望將合成DNA變成耐用、易操作的高密度信息存儲介質。
2016年,研究團隊成功地將4個圖像文件信息存儲到一段人造DNA片段上,並完好無損地將它們取了出來。
2019年3月,他們首次實現了全自動的DNA數據存儲與提取。在這項實驗中,研究團隊開發了全自動的端到端系統,在合成DNA片段中寫入“hello”一詞,並將DNA上的數據轉換回了通用的數字信息。微軟稱,這項自動化技術是讓DNA數據存儲得以走出實驗室,應用到商業數據中心的一個重要的里程碑。
實際上,中國政府也在這個領域加大支持。根據科技部、深圳市人民政府《部市聯動組織實施國家重點研發計劃“合成生物學”重點專項框架協議》,中央財政和深圳市聯合出資,共同組織實施“合成生物學重點專項”。
在《“合成生物學”重點專項2018年度項目申報指南》中對項目“使用合成DNA進行數據存儲的技術研發”是這麼描述的:
研究內容:開發利用合成DNA高效快速、高密度數據加密編碼轉碼,隨機讀取,無損解讀新方法;開發多類型數據存儲DNA介質;通過合成DNA開發快速編碼,存儲及數據讀取的集成型軟件系統。
考核指標:開發1套DNA數據編碼算法,實現數據信息到DNA碼的高密度存儲(單位編碼效率bits/base>1.6);開發1套DNA糾錯及索引算法,實現數據無損解讀;開發1套分區及隨機讀取流程,實現DNA數據存儲的隨存隨取;開發1套適用不同類型數據到DNA序列轉換算法。
據今年7月來自南方科技大學的信息,科技部公示了國家重點研發計劃“合成生物學”重點專項2018年度擬立項項目清單,南方科技大學生物醫學工程系系主任蔣興宇教授作為項目負責人的項目“使用合成DNA進行數據存儲的技術研發”成功入選,其牽頭的“使用合成DNA進行數據存儲的技術研發”項目總經費達2203萬元。
該項目由南方科技大學牽頭,上海交通大學、中國科學院長春應用化學研究所、福州大學、同濟大學聯合申報。項目擬通過發展新型存儲技術以應對大數據的爆炸式增長,解決數據快速增長與數據有效存儲和利用之間的矛盾,推動中國在DNA數據存儲基礎研究領域的原始創新和科學突破。
“由於DNA存儲技術領域的強學科交叉性,必須依靠計算機、生物、化學、數學和其他多個相關學科的協同發展,才有可能使我國在DNA存儲的國際競爭中佔據先機“,張成指出。
面對DNA存儲這種顛覆性技術的歷史機遇,多學科交叉和國際化協作必不可少。比如,該文的通訊作者YanivErlich,其2017年在哥倫比亞大學的計算機學院發表 Science 文章,設計DNA噴泉算法;而另一通訊作者是蘇黎世聯邦理工學院功能材料實驗室的Titulary教授RobertGrass,他負責將DNA封裝到玻璃材料中。
張成說,“作為國內科研工作者,我們也同樣非常注重學科交叉。”北京大學許進-張成聯合課題組的計算機專業學生,不僅熟悉編程等計算機技術,同時還能夠走入生化實驗室,進行精密的DNA納米技術實驗操作。例如,通過學科交叉,2019年聯合課題組構建的可循環DNA電路的工作就發表在《美國化學會誌》(JACS)上,這是北京大學軟件所歷史上的首次跨學科 JACS 論文。
張成坦言,目前DNA存儲相關研究仍在實驗室探索階段,屬於基礎研究階段。因此,國家的相關政策引導和支持,對於DNA存儲在中國的發展至關重要。