《Journal of Biotechnology》:Identification of chalcopyrite-binding peptides for flotation applications using phage display and deep sequencing
编辑推荐:
DNA存储技术综述:分析其高密度(455 EB/g)、化学稳定性及低能耗优势,探讨编码策略(约束编码/码率压缩)、合成技术(化学法vs酶法)、测序平台(三代测序技术)及纠错算法(RS码/ Fountain码),对比ex situ与in situ保存方案,指出随机访问与长期数据可靠性仍需突破。
雷纳托·雷宾巴斯(Renato Rebimbas)|伊内斯·格洛里亚(Inês Glória)|朱莉娅·切冈(Júlia Cheg?o)|穆希布·阿尔-拉维(Muhib Al-Rawi)|阿里雷扎·穆萨卡尼·甘杰(Alireza Mousakhani Ganjeh)|豪尔赫·A·萨拉伊瓦(Jorge A. Saraiva)
阿威罗大学化学系,葡萄牙阿威罗3810-193
摘要
全球数字数据生成的迅速扩张暴露了传统电子存储技术的关键局限性,包括可扩展性、寿命和可持续性方面的问题。脱氧核糖核酸(DNA)作为一种有前景的长期数据存储介质脱颖而出(在最佳条件下可能存储数千年),因为它具有极高的理论信息密度(每克DNA 455艾字节)、化学稳定性以及低的数据保存能耗。本文全面概述了基于DNA的数据存储技术,涵盖了从编码和合成到测序、错误校正、随机访问和物理保存的整个信息生命周期。我们讨论了当前的编码策略,包括受限编码和基于编解码器的系统,重点在于缓解诸如同聚物形成、GC含量不平衡和二级结构生成等生化限制。文章还回顾了DNA合成技术的进展,比较了传统的化学方法与新兴的酶促方法在吞吐量、错误率、可扩展性、成本和环境影响方面的差异。在读取方面,我们分析了第一代、第二代和第三代测序平台,以及先进的错误校正和解码策略,包括Reed–Solomon码、Fountain码、HEDGES和DNA-Aeon。此外,还探讨了随机访问方法和DNA保存策略的最新进展,比较了体外和体内方法在数据稳定性、可访问性和长期存储潜力方面的优劣。总体而言,本文强调了基于DNA的数据存储系统在可扩展性、可靠性和可持续性方面的关键技术进展及仍存在的挑战。
引言
数据存储对于保存和传播人类知识至关重要,涵盖了发现、法律、历史和事件,在社会发展中发挥着重要作用。过去,信息通过洞穴壁画和雕塑等原始方法记录下来,实现了知识的视觉传播。随着书写系统的发明,信息可以通过在更广泛的表面上刻写来存储。15世纪印刷术的发明进一步革命了知识传播,通过大规模文本生产使信息更加普及(Gu等人,2014年)。
随着技术的发展,出现了新的存储方法,如磁存储。1956年IBM推出了第一台此类设备,标志着向电子系统的根本转变(Morris和Truskowski,2003年)。此后,硬盘驱动器(HDD)技术得到了显著发展,由于能够通过磁化存储大量数字信息,到20世纪末已得到广泛应用。20世纪70年代末和80年代初,光盘(CD)的引入为数据存储带来了另一项创新。利用激光读写信息,CD相比磁存储设备提供了更大的存储容量和便利性(Gu等人,2014年)。
然而,数字时代的到来导致全球生成的数字信息量呈指数级增长(Gu等人,2014年)。国际数据公司的预测显示,2018年生成的数字数据总量约为33泽字节(1泽字节等于1021字节)(Imburgia和Nivala,2024年),预计到2025年这一数字将上升到175泽字节(Reinsel等人,2018年)。这种快速增长给传统的存储技术(如磁存储、光存储和固态存储设备)带来了挑战,这些技术在存储容量、寿命和环境影响方面面临越来越大的限制(Ceze等人,2019年,Grass等人,2015年,Gu等人,2014年,Imburgia和Nivala,2024年)。这些限制促使人们比以往任何时候都更加迫切地寻找更可持续、高性能的数据存储解决方案(Gu等人,2014年)。早期的艺术实验,如乔·戴维斯的《Microvenus》(1996年),展示了将符号化视觉数据编码到合成脱氧核糖核酸(DNA)中的可行性,证明了其作为信息存储介质的潜力(Davis,1996年)。因此,DNA成为一种有前景的数字数据存储平台。
DNA以四种核苷酸(腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)的线性序列存储信息,这种序列可以抽象为适合数字编码的四种字母。因此,这种分子格式实现了极高的理论数据密度,每克DNA可存储高达455艾字节的数据(Organick等人,2020年)。此外,DNA具有显著的化学稳定性,在适当的存储条件下,信息可以保存数百年甚至数千年(Grass等人,2015年)。
从技术角度来看,核苷酸序列的可预测性和可编程性使得通过DNA合成进行可靠的数据写入、通过扩增进行数据复制以及通过测序进行数据检索成为可能。与传统电子存储介质不同,DNA不需要持续的能量输入来维持存储的信息,并且可以在室温下保存,从而减少了环境足迹(Gervasio等人,2024年)。这些特性使DNA特别适合长期存档存储和大规模数据保存。
因此,本文旨在通过评估DNA作为数字存储介质的关键优势和技术局限性,回顾该领域的最新进展,并提出潜在的未来应用(图1)来探索其实际潜力。
二进制转换为核苷酸序列的方法
DNA数据存储首先需要找到一种共同的语言,将数字数据转换为DNA。由于这一过程的复杂性,本节旨在简要概述过去和现在的DNA编码方法。
DNA存储的首次演示是使用相变码。这种编码依赖于每个碱基被赋予一个“相变”值,表示二进制位在改变之前需要重复的次数
DNA测序
检索存储在单链DNA中的数字数据的第一步是收集和测序DNA分子。这涉及使用三代测序技术读取核苷酸序列:Sanger测序(第一代)、Illumina测序(第二代)以及Pacific Biosciences(PacBio)和Oxford Nanopore Technologies(ONT)(第三代)。其中,Illumina因其高效率而被最广泛采用
随机访问的重要性
早期关于DNA作为数字存储的研究集中在合成和测序技术等基本方面(Church等人,2012年;Goldman等人,2013年;Grass等人,2015年)。这导致了顺序访问的实现。顺序访问是从开始到结束线性处理整个数据以检索特定信息的过程。在DNA数据的背景下
物理存储与保存:体外与体内
存储介质的寿命是决定长期数据存储安全性、效率和成本的关键因素(Wang等人,2024年)。尽管DNA表现出令人印象深刻的稳定性,但它仍然容易受到各种物理、化学和生物因素的影响,这些因素可能会损害其完整性并导致数据丢失(Shen等人,2025年)。主要的破坏因素包括紫外线(UV)辐射、电离辐射、特定酶和水解反应等
DNA存储的优势与挑战
DNA因其独特的特性而被探索作为存储数字信息的革命性介质。本文将探讨其中的一些特性,如存储容量、长期耐用性、成本、读写时间以及社会、伦理和环境影响。在容量方面,DNA的最大理论密度为每克DNA 455艾字节(4.55×1011吉字节/克DNA)(Organick等人,2020年),这代表了存储能力的显著提升
归档备份、历史和文化数据
本文表明,DNA存储是一种可行的数据存储方法,经过适当调整后,它可以替代传统的电子存储设备。这一概念并不像看起来那么遥远,本节旨在传达这一信息。DNA存储的一个现实应用案例是电视剧《Biohackers》的第一集。这一集完全由Reinhard Heckel用DNA存储,存储了100
结论
本文探讨了DNA数据存储的潜力和局限性,强调了它作为解决传统数字存储技术某些基本限制的有力候选者的地位。DNA具有极高的理论密度(每克DNA高达455艾字节)和显著的长期稳定性,在适当条件下可以实现数千年的数据保存(Organick等人,2020年)。这些
未引用的参考文献
(Alberts等人,2002年;Binkowski等人,2005年;Carr等人,2004年;Davey和Mackay,2000年;Forget等人,2025年;Ghannam等人,2023年;Guo等人,2008年;Heckel等人,2019年;Hoff等人,2020年;Kong等人,2007年;LeProust等人,2010年;Liu等人,2025年;McNally等人,2010年;Roy和Caruthers,2013年;Saaem等人,2010年;Saveleyv,2021年;Soni和Meller,2007年)
CRediT作者贡献声明
豪尔赫·A·萨拉伊瓦(Jorge A. Saraiva):撰写——审稿与编辑,监督。朱莉娅·切冈(Júlia Cheg?o):撰写——初稿,概念构思。伊内斯·格洛里亚(Inês Glória):撰写——初稿,概念构思。阿里雷扎·穆萨卡尼·甘杰(Alireza Mousakhani Ganjeh):撰写——审稿与编辑,监督。穆希布·阿尔-拉维(Muhib Al-Rawi):撰写——初稿,概念构思。雷纳托·雷宾巴斯(Renato Rebimbas):撰写——初稿,概念构思。致谢
本项工作得到了葡萄牙国家基金(FCT/MCTES、科学技术基金会和科学技术与高等教育部)通过项目UID/50006/2025-Laboratório Associado para a Química Verde - Tecnologias e Processos Limpos(LAQV-REQUIMTE)的支持。同时感谢FCT/MCTES为阿里雷扎·穆萨卡尼·甘杰提供的博士学位奖学金(2022.12558.BD)。
利益冲突声明
作者声明没有已知的财务利益或个人利益冲突