科學家提出DNA信息存儲陰陽雙編碼新方法
近日,深圳華大生命科學研究院研究員沈玥團隊與合作者在《自然計算科學》上發表了封面文章,為DNA信息存儲的應用提供了一種高密度、高穩定性的比特-鹼基編解碼方法,並完成了體內外兩種模式的信息存儲實驗驗證。
DNA存儲作為生物技術與信息技術相融合的主要方向之一,近年來受到廣泛關注。DNA存儲的編解碼,即比特與鹼基之間的轉換,是DNA存儲中最重要的環節之一,不僅決定信息轉換的效率(信息密度),還直接影響存儲信息的穩定性及可靠恢復性。從2012年起,編解碼技術的發展主要聚焦於提升信息密度,而技術兼容性和原始信息的穩定恢復方面的考慮尚不全面。2017年以前,編解碼技術都未能實現完全的技術兼容,產生序列的GC含量很大程度上還是依賴於原始數據的0/1分佈情況。2017年,美國哥倫比亞大學研究團隊開發的DNA噴泉碼幾乎解決了這一問題,但直接套用的信道編碼技術有較強的數據類型偏好性,因此在實際的存儲應用中存在較高的數據無法恢復風險的問題。
沈玥在實驗室 研究團隊供圖
該論文的通訊作者沈玥告訴《中國科學報》,為解決這一問題,他們將從DNA雙鏈模型中受到的啟發,與中華文化中“陰陽”對立統一的思想相結合,巧妙地應用於DNA編解碼系統,以兩套不同的規則,分別對兩條二進制信息進行“一對一”編譯轉換,再取兩者統一交集的部分為最終解,實現將兩條獨立的信息組合統一為一串DNA序列;另一方面,通過引入篩選機制,他們將與現有合成測序技術兼容性不佳的序列通過預先設置的篩選條件進行過濾。根據不同的組合方法,該系統共能提供1536種不同的編碼規則組合,大大擴展了其應用場景範圍。
研究人員還通過編碼學的理論推導以及不同數據類型文件的模擬編碼,證明了該系統在保證信息密度的前提下,在數據恢復穩定性方面體現顯著的性能提升(存儲數據的平均恢復率較DNA噴泉碼現有水平提升近兩個數量級)。
平質在實驗室 研究團隊供圖
該論文的共同第一作者、深圳華大生命科學研究院助理研究員平質告訴記者,近年來用細胞進行DNA信息存儲也受到了極大關注,為此,他們還測試了該系統在酵母細胞內存儲、傳代後的數據恢復穩定性。結果證明,作為載體的酵母菌株經過1000代以上的傳代,信息仍可以被完整恢復,該存儲方式接近天然DNA分子存儲物理信息密度的理論極限,每克DNA能存儲的信息量約為432.2EB。
該研究開發了一種全新的DNA存儲編碼方法,並提出1536種不同編碼規則組合的方案,為DNA存儲的多類型應用提供了重要工具,有望在海量數據長期存儲的新型介質研究中起到積極的推動作用。
相關論文信息: