探索新的數據存儲方式:未來能直接「刻進」DNA?
也不知道從什麼時候開始,網友們突然喜歡把各種各樣的東西刻進自己的DNA里。 有電影的名場面,有洗腦神曲,還有一些奇怪的圖元。 當然,刻進DNA這個說法也只是大家的調侃,畢竟像這些數據更多的還是存在於我們的硬碟裡。
但我們把時間往前翻兩年,2019年由科學美國人所評選的十大突破性技術中,DNA 存儲技術赫然在列。
臥槽! 難道未來將畫面刻進DNA真的能夠實現了?
大家好! 我是差評君~順著這個話題,今天咱們就來聊聊數據存儲的那些事。
現有存儲方式以及局限性
自打人類文明誕生以來,如何保存資訊,一直都是一個讓人類頭疼的問題。 從給繩子打結,到現在的磁帶硬碟。
隨著文明的進步,存儲方式也在發生著巨大的改變,原因就在於我們想要存儲的資訊也越來越多了。
咱們就從視頻網站來看 —— 在去年 3 月某視頻站啟用新視頻序號之前,該站的視頻號序號已經到達了 1 億的量級。
按一個視頻 100MB 來看,這些視頻所需要的存儲空間就達到了 9.5PB。
想要存夠這些視頻,大概需要9500塊1T容量的硬碟。
這樣看上去好像還好,但隨著該站使用者的增多,如今一天的投稿量就已經超過了十萬。
簡單估算一下,一年就能投超過 6000 萬個稿件,又因為增加了4K和高幀率視頻。 視頻佔用空間更大,估計不到一年就能用掉之前好幾年才能用掉的存儲空間……
如果 B 站未來發展良好的話,需要的儲存空間將會不可逆的加速增加。 除了視頻之外,各種物聯網設備和車載系統也會產生大量數據。
據因特爾計算,一輛聯網的自動駕駛汽車,一天運行下來,通過各類的感測器,將會產生大約 4GB 數據。
而對於那些社交軟體,就拿微信舉例吧。 安裝的時候不到 100MB,等你過個一年半載的再看看。
嚯! 佔用空間 10G+……
所以對於未來數據儲存的需求,IDC( 國際數據組織 ),早在 2018 年就發佈了一份《 數據時代 2025 》的報告。 預測到 2025 年,全球每年產生的數據將會達到 175ZB,換算下來每天都會產生 491EB 左右的數據量。
如果你想要用 1T 大小的硬碟把 491EB 的數據存下來,那你至少需要 514850816 塊硬碟。 把這些硬碟首尾相連,能繞地球赤道將近兩圈。
而這,只是一天所產生的量!
探索新的存儲方式
與此同時,咱們 2020 年全球硬碟( 包括固態和機械 )的產量,也不過 5.89 億塊,加起來的總存儲容量連 2ZB 都不到,而硬碟儲存在所有儲存方式中佔比達到了 65%。
硬碟不夠用了,自然就有很多數據被永久的刪除了。
當然並不是所有產生的數據都有儲存必要,像騰訊 QQ 就算你開了超級會員,它也只給你在雲端保存個兩年的聊天數據。
但在未來由大數據驅動的互聯網環境下,需要儲存的數據只會越來越多,所以除了硬碟、磁帶、光碟,咱們還能有什麼方法能夠大量的長時間存儲數據呢?
對此,科學家們提出了一種可能。
這個可能就藏在每個人的身體里 —— 那就是DNA。
DNA 存儲的可行性
停停! 別亂想~這是很正經的學術問題。
早在 20 世紀 70 年代,有關於 DNA 資訊儲存的構想就被提出來了,並在 1988 年由哈佛大學和藝術家 Joe Davis 共同合作將 35bits 數據的符號圖像編入了大腸桿菌 DNA 中。
我相信看到這裡肯定有很多人搞不明白,這DNA怎麼能和存儲資訊聯繫起來。
要講清楚這個,咱們首先要知道一件事。
信息是怎麼存儲的?
現在咱們用的數位化存儲磁帶硬碟這些東西,想要存儲文字圖片視頻這些資訊,並不是像紙筆這樣直接寫下來或畫下來,而是將文字圖片視頻轉化成一串二進位碼,再記錄在硬碟上。
比如想要記錄這麼一句話 「 hello world 」,首先電腦會將 hello world 經過 ASCII 碼轉化成二進位碼,ASCII 碼是基於拉丁字母的一套電腦編碼系統。
這套系統中,ASCII 碼定義了 128 個字元,每個字元按順序使用二進位碼標記,這樣通過記錄二進位碼就能知道你記錄的數據了。
這種做法很像摩斯電碼是不是,轉換成二進位碼之後,電腦就會通過磁電效應,利用硬碟裡上成千上萬的小磁極記錄這些 01 數據,在讀取時反向操作即可。
……
以上這些內容相信大多數差友們比我都還瞭解,但這跟DNA又有什麼關係?
難道DNA也有磁性,能像這些網友們一樣吸住鐵勺嘛?
肯定不能啊! 更何況這些人能吸住勺子,大概率只是因為沒洗澡皮膚黏而已。 ( 雖然 DNA 也挺黏的 )
啊不是! 雖然 DNA 沒有磁性,但是差友們還記得高中生物中教的 DNA 轉錄那一課嗎? DNA 本身是由四種鹼基組成 —— 腺嘌呤、鳥嘌呤、胞嘧啶以及胸腺嘧啶。
為了記錄遺傳資訊,四種鹼基會排列成不同順序。 在表達時 DNA 解旋裂開以其中的一條鏈為範本進行轉錄,生成 mRNA ( 信使 RNA ),mRNA 上相鄰的三個鹼基,就是它們表達性狀的最小單位密碼子。
不同排列順序的密碼子就代表著不同的遺傳密碼。
欸! 這個密碼表,放計算機里來,原理上不就是 ASCII 碼嘛,也就是說 DNA 記錄資訊的方式在邏輯上是和數位存儲一摸一樣的。 只要咱們把DNA的四種鹼基拿來翻譯二進位,那不就可以用DNA記錄資訊了嘛。
比如,00 指代腺嘌呤 A、01 鳥嘌呤 G、10 胞嘧啶 C、11 胸腺嘧啶 T。
一句 ” hello world ” 的二進位 ASCII 碼是這樣的:
01101000 01100101 01101100 01101100 01101111 00000000 01010111
01001111 01010010 01001100 01000100
轉換成 DNA 編碼那就是這樣:
GCCA GCGG GCTA GCTA GCTT AAAA GGGT GATT GGAC GATA GAGA
這樣一來,所有能用二進位記錄的數據,DNA 也能記錄下來了。 從邏輯上來看,雖然DNA存儲很好理解,具體到實現上就要花點功夫了。
作為存儲設備,要實現的功能無非就是寫入然後讀取DNA編碼寫入部分主要由兩步組成。
DNA 編碼以及DNA合成編碼過程中除了要進行二進位碼轉化外,還有就是要解決化學合成中的精準度不高的問題。 所以一般都是對資訊先進行壓縮,然後加入糾錯碼,最後再轉化成DNA編碼。
DNA 合成則是將鹼基序列中的鹼基逐個連接形成DNA鏈的過程,由於細胞的排外性及受生物活動的影響,一般採用體外人工合成的方式合成DNA鏈,這個合成本質上來說就是一系列針對性的化學反應。
又因為合成DNA長鏈在時間、錯誤率、技術難點等方面均高於短鏈,所以通常將鹼基序列分成若干短鏈。
短鏈的頭部就是位址位,它的功能就是定位某段短鏈在資訊中的位置,這樣就可以快速查找、定位、拼接各段資訊。
資訊存入完畢后,剩下的就是DNA解碼讀取了。
首先通過 PCR 技術,也就是 DNA 體外擴增技術,對 DNA 片段進行複製,獲得多個 DNA 片段副本,然後在對副本進行 DNA 測序。
獲取鹼基序列後,對序列糾錯、去冗( rong )餘解碼,最後就能得到完整的原始數據。
優缺點
既然是一種新的存儲方式,DNA 存儲肯定有它的優勢所在。
首先就是存儲密度,因為DNA自身的立體雙螺旋結構,使得DNA資訊存儲密度的數量級是目前已知任何儲存技術的若干倍。
比如快閃記憶體最多只能在 10nm 記憶體記憶體最多只能在 10nm 記憶體記憶體 1bit 的數據,而 DNA 可以在 0.34nm 存儲 2bits,1 克 DNA 所能儲存的資訊,需要 420 億個 U 盤或者 26 億塊硬碟或者 2.27 億個磁帶才能存下。
想要記錄下全球所有的數據,咱們需要的只是一千克DNA而已。
其次,DNA 還有著其它磁性材料無法擁有的穩定性。
硬碟磁帶這些磁性材料,其存儲時間最多數十年,就會因為消磁和耗材等原因造成信息丟失,以至於要對數據重新刷寫。
而 DNA 並沒有消磁的擔憂,DNA 分子是一種在低溫下極其穩定的分子。 它的半衰期長達 512 年,並且在極低溫下,DNA 可以保存成千上萬年。
在 2013 年,科學家們就從永凍土中挖出過一匹被冰凍時間長達 70 萬年的馬。 經測試,這匹馬的DNA仍然可以進行測序。
雖然 DNA 存儲的優點非常亮眼,但它現在的缺點也是非常明顯的。
首當其衝的就是 DNA 存儲的成本過高……
紐約基因中心曾經將 6 個檔寫入 DNA —— 一個完整的操作系統、一部 1895 年的電影、一個 50 美元的亞馬遜禮品卡、一個計算機病毒、1972 年先鋒號飛船上的金屬板所攜帶的資訊以及資訊學家 Claude Shannon 一項 1948 年的研究資訊。
為了合成這些資訊,他們總共花費了 7000 美元,而為了讀取這些資訊他們又花費了 2000 美元。
整個過程都需要專業的儀器設備協助,個人使用及其不方便。
其次就是合成速度慢,之前說的那 6 個檔,他們花了兩周時間才收到了合成好的 DNA。
DNA 測序的發展
這些缺點讓DNA存儲目前的應用場景變得非常局限,畢竟誰也不想存個照片就得等個大半天吧不是。 不過,這些缺點也不妨礙DNA存儲成為目前存儲方向的重點研究領域。
咱們國家就已經把DNA存儲這項技術納入十四五規劃中,國外對這項技術的研究也沒有停滯。
據外媒報導 2019 年微軟就與華盛頓大學旗下的科研人員,研發出了一套能夠將 DNA 合成和測序自動化讀取的儲存設備。
這台原型設備造價不過 1 萬美元,這台設備的軟體首先將數位代碼轉換成 DNA 編碼,然後 DNA 編碼自動發送到合成器,合成器以正確的順序和比例將所需的化學物質和液體結合起來,然後將定製的 DNA 分子吐到存儲容器中。
想要讀出數據時,存儲容器中的DNA分子會被推入一個納米孔DNA測序機,把DNA分子序列自動轉化成二進位碼。
在實驗中,他們成功的將 「 hello」 這一詞編入了 DNA 片段並進行讀取。
而且從 2004 年至今,合成 DNA 寡聚體的成本已經下降了 96%,降低的原因是基於微陣列的合成方法以及寡聚體池的發展,但是由於 DNA 良好的可複製性,反而讓 DNA 存儲在商業上無法得到更大的利潤。
因為一旦獲得了合成的DNA,就不再需要重複訂購,基因可以在內部以低廉的成本複製,甚至編譯好的DNA還能隨著生物的自我繁殖而複製。
早在 2017 年,就有團隊將一張賽馬的動圖經過 DNA 編碼后,送入大腸桿菌內。
隨著大腸桿菌的多代繁殖,研究人員依舊能夠從它們的後代中提取出編碼后的信息準確率高達 90%。
結尾
所以隨著這項技術的發展,未來世界可能會變得越來越賽博朋克起來。
有這麼一個事,在 2018 年有一位來自法國的 16 歲高中生在瞭解 DNA 存儲後,他便想著能不能給自己的身體里刻入一些 DNA 資訊呢?
於是他把聖經和古蘭經的部分內容轉譯編成DNA編碼,一家名為 VectorBuilder 的專門用來創造病毒的公司在把DNA片段編入病毒後,將DNA液體寄給了這位高中生。
隨後這位高中生便將這份液體注入到自己的體內。 據他稱事後除了傷口有一點發炎並無其它大礙。
當然,像他這樣往自己體內注射病毒的方式並不能改變自己身上的DNA,除了讓自己的免疫系統忙碌起來並沒有什麼其它作用。
不過咱們可以大膽幻想一下,隨著基因工程和DNA儲存的發展,說不定到時候還真會誕生各種存儲了DNA數據的生物或寵物。
想要交換數據不再是交換U盤了,而是問道,能給我一點你的DNA嘛?
希望大家到那個時候可別把什麼亂七八糟的東西都刻進DNA啊!