Data and image storage on synthetic DNA: existing solutions and challenges

Dimopoulou, Melpomeni; Antonini, Marc

doi:10.1186/s13640-022-00600-x

审查
开放式访问
出版：2022年10月29日

合成DNA上的数据和图像存储：现有解决方案和挑战

EURASIP图像和视频处理杂志 体积 2022，物品编号：23(2022)引用这篇文章

4168访问
2引文
韵律学细节

摘要

由于存储设备的使用寿命相对较短，数字数据的存储对人类来说越来越具有挑战性。此外，数字数据生成量呈指数级增长，因此需要不断构建新资源来处理数据量的存储。最近的研究表明，使用DNA分子作为一种有希望的新候选物，可以容纳500千兆字节/毫米\(^3\)（是HDD驱动器的1000倍）。任何数字信息都可以在体外合成DNA，并存储在特殊的微型存储胶囊中，保证数百年的可靠性。存储的DNA序列可以在需要时使用称为定序器的特殊机器进行检索。这整个过程是非常具有挑战性的，因为DNA合成过程在资金方面很昂贵，而且测序容易出错。然而，研究表明，在编码中遵守几个规则时，排序错误的概率会降低。因此，数字信息的编码并不简单，在编码之前需要对输入数据进行有效压缩，以降低高合成成本。在本文中，我们对合成DNA中数字数据的存储进行了综述，解释了这一新研究领域所解决的问题，介绍存储工作流程中包含的主要过程，以及不同研究的历史和DNA数据存储文献中提出的最著名的算法。

1介绍

数据爆炸问题是数字进化的最大挑战之一。持续贪婪地使用互联网，包括数字平台和社交网络，导致需要高效处理和存储的数字数据的生成量急剧增加。这种信息过载现象大量存储在大数据中心的服务器中，根据数据的性质和需求，使用不同的技术对其进行组织和归档。根据发表于[1]智能手机使用量、物联网采用率和大数据分析的快速增长导致了数据中心的大规模增长，并且带来了成本。本文介绍了IDC提供的以下统计数据：

2012年，已有50万个数据中心处理全球流量，而如今已有800多万个。
年度CO₂数据中心的排放量达到CO₂由全球航空业生产。
每年，全球数以百万计的数据中心都在消耗全国范围内的电力。一些模型甚至预测，如果不加以控制，到2030年，数据中心的能源使用可能会吞噬全球10%以上的电力供应。
90%的现有数据仅在过去两年内生成。
数据中心使用的能源量继续每4年翻一番。

除上述数字外，众所周知，硬盘驱动器的存储介质使用寿命有限，从3年到5年不等[2]备份磁带机使用20–30年[三]. 因此，为了保证存储数据的可靠性，数据中心必须经常更换不同的存储单元，这会导致巨大的硬件浪费。此外，更换旧的存储单元需要将数据迁移到新的存储单元中，这一过程在资金和能源方面都很昂贵。所有这些事实表明，数据生成量的巨大增加正在对环境造成严重污染。由于由此产生的环境影响，公司面临着越来越大的压力，要求其遵循绿色政策，建立利用节能技术的绿色或可持续数据中心。

1.1什么是冷数据？问题定义

为了管理、存储和更新数字内容，行业和数据中心根据兴趣或访问优先级将数据分为热、热和冷三个级别。数据需求的频率（隐喻地称为数据温度）表示每种类型的数据应存储到的最合适的单位。更准确地说，热数据是指需要最快存储的资产，因为它们的访问频率最高。因此，它存储在距离访问点最近的位置，例如固态或闪存驱动器和CPU。热数据表示不太容易访问的信息，存储在较大的存储容量或文件服务器上，以实现相对的成本效益。最后，很少甚至从未访问过的数据，不需要在线工作流，被放在最慢、成本最低的存储介质（如磁带和光盘）上，称为冷数据。

数字信息中最大的一部分是冷数据，尽管它很少使用，但出于安全和法规遵从性的原因，这些信息必须存储在备份磁带机中。用户在脸书上存储的旧照片就是这样一个冷数据的例子；脸书最近建立了一个完整的数据中心，专门存储这些冷照片[4]. 此外，随着过去几年中冷数据的百分比达到80%，很明显，保存此类信息的总成本会随着时间的推移而显著增加！然而，所有当前用于冷数据存储的存储介质（硬盘或磁带）都存在两个基本问题。首先，存储密度的改善率最多为每年20%，远远落后于60%的冷数据增长率。其次，当前存储介质的使用寿命有限，为5年（HDD）到20年（磁带）。由于法律和法规遵从性方面的原因，数据的存储时间通常要长得多（50年或更长），因此必须每隔几年将其迁移到新的存储设备，从而增加了所有权的价格。因此，有必要找到新的资源来存储具有更高容量和更长寿命的数字数据。需要注意的是，虽然数据中心的电力和能源消耗不是由离线备用驱动器直接产生的问题，但重要的是要考虑到数据频繁迁移到新存储单元需要消耗能源和电力。此外，世界上大多数“冷”数据没有很好地组织起来，无法保存在离线磁带机中，而是在在线服务器中聚集了大量空间，而不是占用了大量磁盘空间。因此，组织这一高比例的数据，并使用极其紧凑的DNA解决方案作为安全备份单元来存储数据，可以显著减轻数据中心的工作量，并释放足够的空间来存储新生成的数据，从而降低构建新数据的速度。下文将介绍上述问题的一些有趣的解决方案。

1.2现有解决方案

数据存储的长寿不仅出于财务或环境原因，而且对于为下一代保存基本和宝贵的文化遗产也至关重要。为了解决这个问题，科学家们一直在研究使用更高耐久性的替代方法。

几个项目，例如在南安普顿大学[5]或在日立[6]，目前正在考虑新的形式的非常长期的数字存储，使用成型石英玻璃，估计存储时间在1亿年的范围内。然而，这些项目目前受到一个与空间有关的重要问题的阻碍：两个项目开发的存储容量最多不超过每英寸40兆字节，即与任何标准硬盘达到的每平方英寸1兆字节的容量相比，这是一个非常低的值。

另一个非常有趣的解决方案建议使用DNA分子，这是生命的信息存储材料，作为数字数据存储的替代方法。有趣的是，最近的工作已经证明，在DNA中存储数字数据不仅可行，而且非常有前景，因为DNA的生物特性允许在非常小的体积中存储大量信息，存储时间长达数百年甚至更长，并且不会丢失信息。本文旨在介绍DNA中数字信息存储的一些新算法和技术，因此下一节将专门解释DNA数据存储的术语，以及分析最重要的资产和挑战。

2DNA编码

DNA（脱氧核糖核酸）是生物体遗传的支持物。它是一种复杂的分子，对应于四种核苷酸（nts）、腺嘌呤（a）、胸腺嘧啶（T）、鸟嘌呤和胞嘧啶（C）的序列。根据互补碱基配对规则（Chargaff规则），如果一条单链与互补链结合，DNA可以是双链[7]这意味着DNA碱基对总是腺嘌呤和胸腺嘧啶（A-T），胞嘧啶和鸟嘌呤（C-G）。正是这种四元遗传密码激发了DNA数据存储的想法，它表明任何二进制信息都可以编码成a、T、C、G的DNA序列。

更具体地说，合成生物学领域的一些重要进展允许在实验室（体外）人工合成DNA链。所产生的DNA是合成的，但与真实DNA具有相同的非凡特性。唯一的区别是，人工合成不需要任何特定的DNA模板，实际上可以在实验室合成A、T、C、G的任何四元序列。这意味着产生的DNA不一定包含任何基因，这些基因是负责产生生命的DNA序列。相反，任何核苷酸序列都可以组装成DNA链。因此，使用这项技术，任何数字信息都可以合成为DNA，前提是它之前已经编码为四元表示，这是一个称为DNA编码的过程。一旦合成成DNA的形式，编码序列就可以存储在诸如材料或特殊小容器之类的存储单元中，这样可以保护DNA并提供长期存储。这种存储的一个例子是将DNA插入由Imagene公司提供的名为“DNA-shell”的特殊微型胶囊中，这种胶囊可以保护分子免受水和氧气的接触，并可以确保数百年的可靠性。存储的DNA可以在需要时使用一些特殊的机器，即定序器进行检索。DNA测序是一种生物过程，它允许读取任何DNA链并对其进行解码以提供其四元内容。DNA合成（写入）和测序（读取）这两个基本生物过程的工作原理类似于噪声信道，因此构建了数字存储的编码工作流。

2.1优势

DNA具有四个关键特性，使其成为数字数据档案存储的一个非常有前途的候选者：

首先，它是一种密度极高的三维存储介质，理论上可以在1克中存储455 EB。相比之下，3.5英寸的HDD如今可以存储10 TB，重量为600克。
第二，即使在恶劣的储存环境中，DNA也可以持续几个世纪。一头长毛猛犸的DNA解码，这头猛犸被困在永冻层达40000年之久[8]这是唯一一个证明DNA寿命长的例子，而HDD和磁带驱动器的寿命分别为5年和20年。
第三，进行DNA的体外复制非常简单、快速和便宜；磁带和HDD具有带宽限制，这导致复制Exabyte大小的大型存档需要数小时或数天的时间。
最后，DNA是生命的信息存储材料，其主要成分永远不会改变。这与其他存储方式形成了对比，这些存储方式往往会随着技术进步而改变，相应的解码设备也是如此。这意味着，从长远来看，由于存储的数据与新的解码器不兼容，存储的内容可能无法解码。例如，近20年前，计算机曾为软盘提供一种特殊的输入，但现在情况已经不同了。因此，无法再访问软盘中存储的任何信息。相反，DNA将永远存在于生物体中，即使测序方法将进一步改进，新的测序器也将始终适用于解码完全相同的分子。

上述特性表明，在DNA中存储数字数据是一种非常有前途的解决方案。根据一篇发表在自然[9]根据一个非常粗略的理论估计，科学家声称1公斤DNA足以存储世界上所有的数字信息。表1显示了发表在[9]它将DNA分子与一些广泛使用的存储设备、硬盘和闪存进行了比较。

表1 DNA与其他数字数据存储表和数据的比较[9]

全尺寸桌子

2.2挑战

如第节所述2DNA合成和测序是DNA中数字数据存档的关键程序。虽然这两个过程对生物学领域至关重要，但也带来了一些重要的挑战。

首先，DNA合成需要构建不超过200-300 nts的DNA链（寡核苷酸）。这种限制源于这样一个事实，即随着寡核苷酸长度的增加，合成误差呈指数级增加。为了实现低错误概率的构造，有必要将编码的四元链切成更小的块，并且还需要引入一些特殊的报头，以便在解码时进行正确的重建。

其次，DNA合成和测序都包括一些精细精细的生物操作，因此这两个过程很昂贵，每个合成/测序寡核苷酸需要几美元。因此，在将数据存储到DNA中之前，有必要对要存档的数据进行有效压缩。

DNA测序过程中的另一个重要缺点是容易出错，即在解码序列中插入、删除或替换核苷酸。幸运的是，有一些针对编码链的特殊规则，可以降低出错的概率，但不幸的是，没有消除错误。这些规则将在后面的部分中描述。

最后，最后一个但不可忽视的挑战在于DNA的寿命。虽然它是一项重要的资产，可以存储数百年甚至更长时间的数字数据，但它还需要将解码过程的知识传授给下一代，以便对多年前存储的数据进行长期解码。因此，在耐用材料中安全保存此信息，同时确保其编码方式便于任何新用户检索和理解，这一点非常重要。关于这一特别困难的挑战的一项有趣的研究已经在[10]. 另一个有趣的想法是将解码信息存储在石英玻璃中。年提出了一些在石英玻璃中存储信息的有趣工作[11].

三受限问题

DNA合成是一种只要待合成的DNA链不超过150-300 nts长度，错误率就非常低的过程。对于较长的序列，合成误差呈指数级增加。因此，为了降低出错的概率，需要将要合成的DNA序列切成短片段并格式化，以便能够在解码部分正确地重建初始序列。

相反，DNA测序的生物过程引入了许多不容忽视的错误，因此需要处理测序器产生的错误寡核苷酸。研究表明，导致测序寡核苷酸错误的三个主要因素如下：

均聚物应避免相同核苷酸的连续出现[12].
G、 C含量寡聚物中G和C的百分比应低于或等于A和T的百分比[12].
图案重复用于编码寡核苷酸的码字不应在整个寡核苷酸长度上重复形成相同的模式[13].

考虑到上述所有规则，可以减少排序错误。因此，为了提高效率，任何DNA编码算法都应该遵守上述规则，以尽可能减少测序错误的概率。除此之外，重要的是要提到，为了实现可靠的解码，还需要为编码数据引入一些冗余，以便应用错误检测和纠正。为此，在处理DNA数据存储时，最新技术所采用的编码工作流已根据这些约束进行了构造。以下各节详细介绍了此工作流的主要结构。

3.1常规工作流

在前面的章节中，我们介绍了DNA是一种生态友好解决方案的原因，该解决方案可以在非常小的容量中存储大量信息，同时还可以保证存储数据的寿命。我们还解释了DNA编码是一门多学科的学科，它受到DNA四元密码的启发，高度依赖于DNA合成和测序的生物过程。这两种方法让人想起数字噪声源信道，它将任何类型的噪声添加到传输的数据中。因此，DNA数据存储过程可以被视为通过噪声信道传输四元数据的经典编码工作流。DNA数据存储的通用编码方案如图所示。1.

虽然这个过程看起来很简单，但重要的是要指出，这只是一般DNA编码工作流的一个非常粗糙和简单的表示。然而，正如第。2.2DNA合成和测序是一个非常精细和复杂的过程，在数字数据编码时会带来一些重要的限制。在接下来的部分中，我们将描述通用工作流程的编码和解码如何适应DNA数据存储的需要，从而形成一个更完整和扩展的工作流程。

3.2编码

在此之前，很明显，DNA中数字数据的编码受到该过程的生物学部分的强烈限制。更准确地说，为了总结前面章节中讨论的主要障碍，编码应提供一个四元码，该四元码将尊重测序限制，以确保稳健性，待合成的DNA寡核苷酸的长度不应超过150–300 nts。因此，用于DNA编码的可靠编码器的结构包含以下子部分。

编码工作流程的第一步是构建一个由符号a、T、C和G组成的码字字典，这些符号与DNA分子的核苷酸类似。当以长序列组合时，这些码字应提供健壮的编码。这意味着，与A和T的含量相比，四元链不应包含高G、C含量的均聚物，并且最终不应包含重复图案。

DNA工作流的下一个子过程是一个映射函数，它将输入符号分配给四元码的码字。此函数可以是简单的一对一函数，也可以是更复杂的函数。

最后，由于合成限制限制了寡头长度以避免错误，因此有必要采用一些格式化功能，将生成的长编码切割成较短的寡头，并添加特殊的报头以在解码时重建输入。这些标头可以包含原始长序列中数据块地址的信息、任何必要编码参数的信息以及输入特征的信息，例如大小。DNA中数据编码的一般概述如图所示。2.

3.3解码

由于DNA数据存储是一个容易出现写入和读取错误的过程，解码应该包括一些技术来预测、检测甚至纠正已排序的数据。如章节所述。三增加冗余对于检测错误是必要的，并且可以使用聚合酶链反应（PCR）扩增方法轻松实现，该方法使用一种称为聚合酶的酶来复制（扩增）DNA链。这种特殊的酶可以在被称为引物的特定短DNA序列存在的情况下初始化复制过程。PCR用于DNA合成和测序。因此，在测序器的输出中，每个合成寡核苷酸都会有多个拷贝。每个副本在不同位置可能包含不同类型的错误，因此需要为每个寡核苷酸选择最具代表性的副本。这种选择发生在对齐不同的错误副本之后，这是一个允许计算每个寡核苷酸的一致序列的过程。另一种简单的寡核苷酸选择方法是基于找到所有副本中最频繁的副本。然后，在这些过程之后，可以使用一些纠错算法来处理任何剩余的错误，以获得无错误的解码。值得一提的是，纠错的效率在很大程度上取决于测序期间使用的方法和机器，因为某些特定的测序器可能会导致比其他测序器更高的错误率，因此可能会产生更强的失真。最后，利用逆映射函数可以检索存储在DNA中的数字信息。解码过程概述如图所示。三.

4现有工程

DNA数据存储是一个相对较新的研究领域，因此目前的技术水平仅限于一些开创性的工作，然而，这些工作对这一新兴主题做出了广泛贡献。

4.1首次提到DNA数据存储的概念

使用DNA分子存储数字数据的想法可以追溯到20世纪50年代末，当时苏联物理学家米哈伊尔·萨莫洛维奇·奈曼（Mikhail Samoilovich Neiman）和控制论专家诺伯特·维纳（Norbert Wiener）就合成DNA和RNA分子信息的记录、存储和检索的可能性发表了意见[14,15]. 然而，DNA数据存储的第一次尝试是在1988年，当时艺术家乔·戴维斯和哈佛大学的研究人员合作，将一个5×7的矩阵存储在DNA序列中大肠杆菌一旦破译，就形成了一幅古日耳曼符文的图画，代表生命和女性地球[16]. 在矩阵中，1对应于暗像素，而0对应于亮像素。2007年，亚利桑那大学的科学家发明了一种装置，利用寻址分子对DNA链中的错配位点进行编码。然后，可以通过执行限制摘要来读取这些不匹配，从而恢复数据。这是随后各种有趣工作的起点，引入了多种新颖的编码算法，使DNA数据存储得以实践，并为这一新兴主题做出了广泛贡献。在下文中，我们将介绍参考书目中使用最广泛的研究，并简要分析建议的解决方案。

4.2Church等人首次应用DNA数据存储。

2012年，George Church等人首次对Church In DNA合著的659-Kbyte图书进行编码。在他们的实验中，作者使用了一种非常简单的编码方法，将0随机转换为a或C，将1随机转换为T或G[12]. 然后用喷墨打印机将编码序列作为一系列DNA片段写入微芯片。编码产生了54898个寡核苷酸，包含96个碱基的数据，每端有一个特殊的22碱基序列，允许使用PCR扩增并行复制片段，以及一个唯一的19碱基“地址”序列，表示片段在原始文档中的位置。

然后使用Illumina测序器读取PCR扩增的寡核苷酸，以检索原始文本。该方法产生的DNA片段的存储密度估计超过每立方毫米700兆字节。这一结果代表了DNA中人工编码的最大数据量，并证明DNA的数据密度比最先进的存储介质的数据密度大几个数量级，如图所示。4.

这项工作不仅开创性地证明了使用DNA作为替代存储手段的可行性，同时证明了与传统存储设备相比的非凡容量，而且还揭示了测序可能是一个容易出错的过程。通过分析测序过程中发生的不同错误，这项工作首次研究了编码过程中应遵守的主要约束。

在这重要的第一步之后，接下来的几项工作提出了新的编码技术，试图提供一种稳健的编码，以减少本研究中获得的测序错误。

4.3Goldman等人首次进行生物限制编码。

2013年，Goldman等人[17]提出了一种新的二进制数字数据编码算法，以尊重主要的排序约束。提出了一种使用三值哈夫曼算法将二进制序列的每个字节编码为数字0、1和2的编码方法。然后，这些数字与符号A、T、C和G中的三个相关联，省略了用于前一个数字编码的符号，以确保一行中没有两次使用基数。这种策略避免了均聚物的产生，同时仍然利用了DNA的四基潜能。为了提高寡核苷酸的可靠性并确定数据在原始文件中的位置，Goldman的团队合成了含有100个碱基数据的寡核苷酸，相邻片段之间有75个碱基的重叠，因此每个碱基用四个寡核苷酸表示，形成四倍的冗余。尽管如此，研究人员在测序过程中丢失了两个25碱基的延伸，在解码之前必须手动纠正。本研究中遵循的编码如图所示。5.

因此，这项工作提出的代码构造已被微软研究人员在其后期工作中使用。

4.4Grass等人介绍了Reed–Solomon代码。

为了处理剩余的测序错误，2015年，格拉斯和他的团队[18]首次提出使用Reed–Solomon码在编码中引入纠错。更准确地说，在这项工作中，作者提出了将数据映射到包含Galois字段47元素的块的方法[GF（47）]。每个块的列使用GF（47）中元素组成的唯一索引进行扩展。然后，通过将每个GF（47）元素映射为核苷酸的三联体，将扩展柱编码为DNA，同时确保在最后两个位置没有相同碱基的重复，从而避免了均聚物。每个编码柱代表一个DNA片段，将被合成并存储在二氧化硅中，以确保长期存储而不会损坏DNA。在他们的研究中，作者报告了使用里德-所罗门码（一种用于CD、DVD和一些电视广播技术，如高级电视系统委员会（ATSC）广播的纠错码）编码的83 kB数据的完美检索。存储工作流如图所示。6.

4.5Yazdi等人首次实现了随机访问。

同年（2015年），Yazdi等人[19]引入了一种重要的方法，允许在编码中使用特定且健壮的寻址进行随机访问！在他们的研究中，作者建议在编码数据的两端添加一些特别设计的引物，以允许对特定寡核苷酸进行选择性PCR扩增，而不是对整个寡核苷酸库进行扩增。引物经过特殊设计，对测序错误具有鲁棒性，每个寡核苷酸的编码DNA单词取决于相应的引物。更准确地说，对于每个寡核苷酸，DNA代码是通过确保有效载荷与寡核苷酸的寻址引物之间没有相关性来构建的，因为这将产生二级结构，这可能是灾难性的，并可能导致测序过程中寡核苷酸完全丢失。

在2017年发表的后续研究中[20]，作者使用MinION-Oxford Nanopore的手持定序器读取DNA，同时使用JPEG压缩降低合成成本，提供了一个测试其拟议编码效率的实验。本研究专门针对MinION所犯的错误类型设计了纠错算法。结果是一个无错误的读出结果，今年早些时候，该团队为两个压缩图像存储并排序了大约3.6 kB的二进制数据编码。最后，在年与人合著的一项关于赵磐的研究中[21]，该研究小组建议使用修复技术来校正解码图像的变色，这些变色是由测序过程中引入的损坏引起的。

4.6Blawat等人在封头上的Reed–Solomon代码。

2016年，Blawat等人[22]发布了另一种构建健壮四元码的有趣方法。在他们的工作中，作者提出了一种创建四元码的新方法，即使用以下算法将某些数字数据的每个字节编码为5个核苷酸。首先，将前三对位中的每一对编码为1个核苷酸，并分别置于产生的DNA单词的第一、第二和第四位置。然后，最后一对位可以编码成一对核苷酸，并将其放置在产生的DNA单词的第三和第五位置。上述编码如图所示执行。7因此，对于每个字节，提供了4个不同的DNA单词。为了确保遵守关于最大运行长度的限制，对4个选项进行了过滤，以避免产生均聚物。

为此，作者建议只保留不违反以下规则的选项：

前三个核苷酸不应相同。
最后两个核苷酸不应相同。

根据上述约束条件，每个数据字节至少可以找到2个有效的DNA符号，从而引入一些冗余，可用于错误检测。更准确地说，作者建议将不同的码字选项分为不同的预定义簇，并根据字节的位置使用特定簇的编码对每个输入字节进行编码。例如，一种选择是使用集群A中的码字表示偶数位置，集群B表示奇数字节位置。因此，如果错误将预期在一个集群中找到的码字替换为另一个属于其他集群的码字，则可以进行错误检测。此外，在这项工作中，作者建议使用Reed–Solomon码对寻址报头进行增强，以实现更可靠的解码。

4.7Erlich等人使用喷泉密码进行DNA编码

同年（2016年），哥伦比亚大学研究人员亚尼夫·埃利希（Yaniv Erlich）和迪娜·齐埃伦斯基（Dina Zielenski）发表了一种基于喷泉代码的方法[23]，视频流中使用的纠错代码。作为他们方法的一部分，他们使用该代码在计算机上生成许多可能的寡核苷酸，然后在体外对其进行筛选，以获得所需的特性。研究人员只关注不含均聚物和高G含量的序列，编码并读出了无错误的超过2 MB的压缩数据，存储在72000个寡核苷酸中，包括计算机操作系统、电影和亚马逊礼品卡。它们的编码如图所示8并遵循以下步骤。

首先，将输入的二进制文件分段。然后使用Luby变换，通过从输入序列中随机选择片段并逐位添加它们来创建比特滴，同时附加用于选择的随机种子。生成的比特液滴随后被编码为四元并进行扫描，以满足GC含量和均聚物的生物约束。不遵守上述限制的编码液滴将被丢弃，而其余液滴用于制造寡聚物。重复此过程，直到产生足够的寡核苷酸，从而产生密集的压缩编码，其容量达到1.98位/nt。

4.8Microsoft研究人员提供的高效端到端工作流

2016年，Borhholt等人在微软的一项研究中提出了一种基于DNA的存档系统，该系统使用了Goldman等人引入的四元代码。在这项研究中，他们通过使用自己的寻址引物来避免四重冗余，以允许随机存取，从而改进了编码[24]. 2017年，微软的研究人员提出了一些额外的研究，以改进他们的结果，使用聚类算法对序列器提供的多次读取进行聚类和纠正，从而获得更好的重建质量[25,26]. 最后，在2019年，微软的一个团队成功地将单词“hello”编码在人造DNA片段中，并使用一个完全自动化的端到端系统将其转换回数字数据，如[27].

4.9Appuswamy等人创建了一个新的DNA数据库。

在[28]作者提出了一种使用DNA编码对结构化数据库信息进行编码并实现数据库操作的新方法。在这项工作中，结构化数据库信息（即关系表）和数据库操作以两种不同的方式编码。第一种编码利用了数据库中的固有结构。换句话说，可以使用主键将表中记录的每个属性链接到相应的记录。因此，同一记录的属性可以跨不同的DNA序列分布，而无需寻址，只使用主键，从而减少了地址所需的空间。

信息使用字典编码进行压缩，字典也用DNA编码。随后，尽可能多的属性与主键一起存储在DNA序列中（以将同一记录的属性链接在一起）。一个奇偶核苷酸也被添加到每个DNA序列中用于错误检测。测序后，使用奇偶核苷酸和DNA序列的长度来丢弃无效序列。将其余序列对齐以计算一致性。在实验中，基于数据库基准TPC-H的子集，对多个表进行编码、合成、排序和完全恢复。

这项工作是从数据管理系统的角度解决DNA数据存储问题的第一步，提出了一种使用DNA作为关系数据库管理系统的存档层的体系结构。实验表明，使用合成DNA存档和恢复数据不仅可行，而且还利用数据库知识优化编码和解码过程，甚至直接在DNA上执行SQL操作

4.10DNA图像存储的闭环优化编码解决方案

上述对最新技术的所有研究，通过尊重第节中讨论的生物限制，为构建数字数据的四元编码提供了一些方法。三每一种编码都有不同的优点和缺点，而且由于该课题还很新，因此有必要提供新的编码思路，以帮助丰富现有的研究并提高存储数据的质量。

由于DNA数据存储的主要缺点是合成成本高，书目中提出的编码方法试图提高存储容量，同时也对测序错误具有鲁棒性。为此，上述大多数研究都提出在编码之前用JPEG压缩图像。然而，没有研究提出一种控制这种压缩的方法，使得它提供了一种闭环解决方案，该解决方案可以允许为给定的编码潜力选择最佳的压缩参数。在我们的研究中[29]，我们包括了一个源分配算法，它不仅可以降低合成成本，而且可以保证存储图像的最佳质量，从而达到预定义的编码速率和给定的合成成本。由于低复杂度的源分配需要固定长度的代码，我们还提出了一种新的高效算法，用于构建健壮的固定长度DNA代码，从而简化了核苷酸分配方法。我们还介绍了两种不同的映射方法。第一个出现在[29]处理模式重复，这可能是导致Illumina测序器中错误增加的原因，但之前的研究尚未解决，第二个问题出现在[30]旨在减少错误纠正后可能残留的替换错误的视觉影响。实现固定长度编码器的原因是可变长度编码对排序错误的鲁棒性较差。换句话说，在发生错误的情况下，可变长度编码很容易丢失有关编码数据结构的重要信息，这可能导致输入图像的错误重建。为了证明这一说法[31]我们还实现了一个受经典二进制JPEG编码器启发的可变长度编码器。这一想法的产生得益于JPEG Ad Hoc小组，该小组最近对建立一个新的JPEG标准感兴趣，以在DNA中进行图像编码。我们提出的解决方案使用了二进制编码的经典JPEG标准的修改工作流，该工作流根据受约束的四元码优化输入图像的压缩，生成对测序错误鲁棒的压缩核苷酸流。

5比较不同的DNA编码解决方案

在本节中，我们将比较并评论前几节中介绍的一些解决方案的优点和缺陷。如前所述，Church等人于年首次尝试在DNA中编码数字数据[12]. 这项工作的主要重要性在于，它为启动这一新兴存储领域的研究迈出了第一步。在这项工作中，每个二进制位编码为一个核苷酸，总编码潜力为1位/核苷酸。为了提高编码潜力以及编码对错误的鲁棒性，以下工作采用了一些更复杂的编码算法。更确切地说，Goldman等人[17]提出了一种算法，该算法提供了一种四元编码，避免了均聚物的运行，从而提高了测序质量。这项工作达到了1.58位/nt的编码潜力。然而，这种编码算法不允许控制C、G百分比，并且可以创建模式重复，这种情况会导致测序阶段的错误概率更高[13]. 然而，由于Goldman等人的工作在这种编码中使用依赖于输入的频率分布的霍夫曼码，因此可以允许依赖于源的特性的有效可变长度编码。该算法的另一个优点是，它可以应用于任何类型的输入数据，而不限于二进制表示。然而，使用哈夫曼码需要将源的分布传输到解码器。

亚兹迪的作品[19]介绍了寻址字段的使用，以允许在读取和写入DNA寡核苷酸时随机访问。由于寻址引物包含应正确检索的基本信息，作者提出了一种用于DNA数据存储的新编码，该编码的构建避免了编码DNA链中的二级结构。更准确地说，每个寡核苷酸的DNA编码不同，并且是根据寡核苷酸的地址字段构造的。更准确地说，代码的构造确保了编码码字和寻址标头之间没有强烈的相关性，这可能会导致寡核苷酸自身绑定，从而导致排序中的重大损失。根据后来的一份出版物[20]，这种编码可以达到1.57位/nt的编码潜力。虽然这种编码避免了寡核苷酸选择和放大过程中不希望出现的交叉杂交问题，并且可以进行一些有限的错误纠正，一个可能的缺点是，代码会随着寻址引物的不同而变化，它在整个编码过程中是不固定的。

Blawat等人[22]提出了用5个核苷酸对8位信息进行编码，避免使用均聚物的方法。此外，编码在选择码字时插入了一些随机化，这可能被用来避免模式重复以及纠正可能发生的某些类型的错误。该方法的编码潜力为每8位二进制序列5个核苷酸，相当于1.6位/nt。然而，该算法的一个缺点是它只能用于转码。换句话说，它只能用于将二进制信息编码为四元DNA表示。

在格拉斯等人的作品中[18]，使用Reed–Solomon代码执行编码。这种编码实现了1.187位/nt的编码潜力，引入了一些额外的冗余，以允许纠错。然而，与[22]，它仅适用于二进制流。

Bornholt等人[24]应用了与中相同的编码[17]，改进了编码方案，避免了后者提出的四倍冗余，并将每个DNA块合成为初始序列的4个移位拷贝。有关四倍冗余的更多信息，读者可以参考[17].

Erlich等人[32]实现了一种使用喷泉码的编码，以达到1.98位/nt的极高编码潜力。与前面提到的大多数作品类似，尽管在信息密度方面效率很高，但这种编码仅适用于二进制信息，同时计算成本也很高。

在我们的工作中[29]，我们引入了一种对排序噪声鲁棒的算法，该算法考虑了排序过程施加的所有必要约束。它具有适用于任何输入表示的重要资产，而不限于二进制输入。它的长度固定，计算成本简单，因此可以嵌入到任何编码工作流中。更准确地说，正如我们在[29]和[31]当用于编码的“闭环”优化时，它可以控制较高的DNA合成成本，同时最大限度地提高编码质量。我们的编码器允许1.6位/nt的有效编码潜力。然而，与每种固定长度算法一样，它不能达到由[23].

表中给出了使用最新技术提出的不同编码方法所达到的编码潜力的比较2.

表2与以往工作编码潜力的比较：索引或纠错前每个核苷酸的最大信息含量

全尺寸桌子

6结论和讨论

由于DNA数据存储是一个非常具有挑战性的多学科研究领域，高度依赖于生物操作，预计它将随着用于DNA合成和测序的方法和机器的变化而发展。因此，编码方法可能在接下来的几年中发生变化，以考虑不同的编码约束。除此之外，由于这是一个相对较新的研究课题，在未来的应用中具有很大的潜力，它肯定会在未来几年引起人们的极大兴趣，希望研究得越多，DNA合成和测序等生物过程的成本就会越低。

令人鼓舞的是，世界各地许多不同的研究小组已经对这个主题产生了极大的兴趣。也就是说，在我们的研究期间，我们的研究小组有机会通过OligoArchive项目地平线2020与其中一些团队合作^脚注1它是由欧盟创立的。此次合作包括位于法国索菲亚·安蒂波利斯的I3S/CNRS实验室、IPMC/CNRS和EURECOM，以及位于英国伦敦帝国理工学院，以及位于爱尔兰的合成DNA的Helixworks初创公司。该项目旨在创建一个原型系统，该系统将允许研究从编码到DNA数据排序的整个周期。此外，最近，JPEG社区启动了一个使用DNA的数字媒体存储特设小组[33]，我们很荣幸地作为DNA数据存储主题的特邀专家参加此次会议。与此同时，微软、西部数据、Twist Bioscience和Illumina结成联盟，为DNA数据存储构建高效的原型。因此，我们希望这些合作将产生一些富有成效的想法，帮助该领域迅速发展，很快投入实践。

另一个需要讨论的重要问题是，DNA数据存储旨在存档长期解码的数字数据。DNA的读取总是有保证的，因为DNA分子存在于每一个生物体中，因此总会有一台机器来读取DNA。然而，找到一种方法确保解码器以及解码信息在需要时可用，以便在读取后进行正确的重建，这一点至关重要。一些关于数字保存的有趣作品提出了一些解决方案，用于创建持久的方式来存储用于解码的信息，同时也以一种未来可能不了解编码的任何人都可以理解的方式来表达信息。这些解决方案包括按照法国EUPALIA公司的建议，将解码信息存储在缩微胶片中[10]以及与EURECOM的最新合作[34]或在石英玻璃中。年提出了一些在石英玻璃中存储数据的有趣工作[11].

总之，DNA数据存储是一个非常有前途的新研究领域，有望在解决数字数据存储的基本挑战方面发挥重要作用。然而，由于它是一门多学科的学科，受到生物操作的某些局限性的高度限制，因此在DNA中数字数据的编码方面存在着多重挑战。本文中描述的所有工作为进一步改进奠定了基础，以证明DNA数据存储不再被视为科幻小说场景，而是将在未来几年通过为现有存储解决方案注入新的活力而取得巨大突破。

笔记

https://oligoarchive.eu

缩写

DNA：: 脱氧核糖核酸
国际数据中心：: 国际数据公司
PCR：: 聚合酶链反应

工具书类

M.McNerney，《数据中心的困境：我们的数据正在破坏环境吗？数据中心知识（2019）
S.Jeremy，硬盘能用多久？寿命和失败迹象。Prosoft Eng.Inc（2017）
I.组，LTO磁带的寿命。ISC集团（2012年）
R.Miller，脸书为冷存储构建了EB数据中心。6月检索8, 2014 (2013)
Y.Lei，M.Sakakura，L.Wang，Y.Yu，R.Drevinskas，P.G.Kazansky，二氧化硅玻璃中超快激光写入的低损耗几何相位元件。在：CLEO：应用与技术，第4–4页（2019）。美国光学学会
Y.Shimotsuma，K.Miura，H.Kazuyuki，使用飞秒激光对玻璃进行纳米改性。国际期刊申请。玻璃。科学。4(3), 182–191 (2013)
第条谷歌学者
E.Chargaff，R.Lipshitz，C.Green，四种海胆属脱氧戊糖核酸的组成。生物学杂志。化学。195(1), 155–160 (1952)
第条谷歌学者
E.M.Prager、A.C.Wilson、J.M.Lowenstein、V.M.Sarich、猛犸白蛋白。科学类209(4453), 287–289 (1980)
第条谷歌学者
A.Extance，DNA如何存储世界上所有的数据。自然537(7618) (2016)
V.Joguin，现在和以后的被动数字保存（2019年）
A.Chatzieleftheriou，I.Stefanovici，D.Narayanan，B.Thomsen，A.Rowstron，云存储在未来十年会被破坏吗？输入：12\(\{\)USENIX公司\(\}\)存储和文件系统热点专题研讨会（HotStorage 20）（2020年）
G.M.Church，Y.Gao，S.Kosuri，DNA中的下一代数字信息存储。《科学》，1226355（2012）
T.J.Trengen，S.L.Salzberg，重复DNA和下一代测序：计算挑战和解决方案。Genet国家牧师。13(1), 36 (2012)
第条谷歌学者
M.Neiman，关于分子记忆系统和定向突变。Radiotekhnika电台6, 1–8 (1965)
谷歌学者
N.维纳，机器比人聪明吗？诺伯特·维纳博士访谈。著名科学家。《美国新闻与世界报道》，84-86（1964）
G.M.Skinner、K.Visscher、M.Mansuripur，《生物相容性数据写入DNA》。《生物纳米杂志》。1(1), 17–21 (2007)
第条谷歌学者
N.Goldman，P.Bertone，S.Chen，C.Dessimoz，E.M.LeProust，B.Sipos，E.Birney，《合成DNA中实现实用、高容量、低维护信息存储》。自然494(7435), 77 (2013)
第条谷歌学者
R.N.Grass，R.Heckel，M.Puddu，D.Paunescu，W.J.Stark，用纠错码对二氧化硅中DNA的数字信息进行稳健的化学保存。安圭。化学。国际编辑。54(8), 2552–2555 (2015)
第条谷歌学者
S.H.T.Yazdi，Y.Yuan，J.Ma，H.Zhao，O.Milenkovic，基于DNA的可重写随机访问存储系统。科学。代表。5, 14138 (2015)
第条谷歌学者
S.H.T.Yazdi、R.Gabris、O.Milenkovic，基于DNA的便携式无错误数据存储。科学。代表。7(1), 1–6 (2017)
第条谷歌学者
C.Pan、S.Yazdi、S.K.Tabatabaei、A.G.Hernandez、C.Schroeder、O.Milenkovic，dna中的图像处理。arXiv预印本arXiv:1910.10095(2019)
M.Blawat、K.Gaedke、I.Huetter、X.-M.Chen、B.Turczyk、S.Inverso、B.W.Pruitt、G.M.Church，《DNA数据存储的前向纠错》。程序。计算。科学。80, 1011–1022 (2016)
第条谷歌学者
Y.Erlich，D.Zielinski，容量接近DNA存储。bioRxiv，074237（2016）
J.Bornholt，R.Lopez，D.M.Carmean，L.Ceze，G.Seelig，K.Strauss，基于DNA的档案存储系统。ACM SIGOPS操作。系统。版次。50(2), 637–649 (2016)
第条谷歌学者
L.Organick，S.D.Ang，Y.-J.Chen，R.Lopez，S.Yekhanin，K.Makarychev，M.Z.Racz，G.Kamath，P.Gopalan，B.Nguyen等人：扩大DNA数据存储和随机存取检索。bioRxiv，114553（2017）
C.Rashtchian、K.Makarychev、M.Racz、S.Ang、D.Jevdjic、S.Yekhanin、L.Ceze、K.Strauss，为DNA数据存储聚集数十亿次读取。摘自：《神经信息处理系统进展》，第3362–3373页（2017年）
C.N.Takahashi，B.H.Nguyen，K.Strauss，L.Ceze，DNA数据存储端到端自动化演示。科学。代表。9(1), 1–5 (2019)
第条谷歌学者
R.Appuswamy、K.Le Brigand、P.Barbery、M.Antonini、O.Madderson、P.Freemont、J.McDonald、T.Heinis、Oligoarchive:在DBMS存储层次结构中使用DNA。致：CIDR（2019）
M.Dimopoulou，M.Antonini，P.Barbery，R.Appuswamy，一种生物约束编码解决方案，用于将图像长期存储到合成DNA上。致：2019年（2019年）欧盟SIPCO
M.Dimopoulou，E.G.San Antonio，M.Antonini，一种抗测序噪声的四元码映射，用于dna图像编码。2020年IEEE第22届多媒体信号处理（MMSP）国际研讨会，第1-6页（2020年）。电气与电子工程师协会
M.Dimopoulou、E.Gil San Antonio、M.Antonini，基于jpeg的DNA数据存储图像编码解决方案。输入：EUSIPCO（2021）
Y.Erlich，D.Zielinski，DNA喷泉实现了一个健壮高效的存储架构。科学类355(6328), 950–954 (2017)
第条谷歌学者
基于Dna的媒体存储：最新技术、挑战、用例和要求2.0版。JPEG特设小组，ISO/IEC JTC 1/SC29/WG1M89031（2020）
R.Appuswamy，V.Joguin，《用于长期数据库存档的通用布局仿真》。于：2020年9月8日（2020年）于ArXiV提交。http://www.eurecom.fr/publication/6335

下载参考资料

基金

该项目根据第863320号赠款协议获得了欧盟地平线2020研究和创新计划的资助

作者信息

作者和附属机构

索菲亚·安蒂波利斯（I3S）Sinaux et Systèmes de Sophia Antipolis信息实验室（Laboratoire d’Informatique），UMR 7271，蓝色大学，CNRS，欧几里德B，2000路卢西奥莱斯，06900，法国索菲亚·阿蒂波利斯
梅尔波梅尼·迪莫波卢奥和马克·安东尼尼

作者

梅尔波梅尼·迪莫普鲁
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
马克·安东尼尼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

两位作者都参与了手稿的结构。两位作者均已阅读并批准了最终手稿。

通讯作者

与的通信梅尔波梅尼·迪莫普洛.

道德声明

竞争性利益

作者声明，他们没有相互竞争的利益。

其他信息

出版商备注

施普林格自然公司在公布的地图和机构隶属关系中的管辖权主张保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的，该许可证允许以任何媒体或格式使用、共享、改编、分发和复制，只要您对原始作者和来源给予适当的信任，提供指向Creative Commons许可证的链接，并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中，除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料，并且您的预期用途不被法律法规允许或超出了允许的用途，则您需要直接获得版权所有者的许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

引用这篇文章

Dimopoulou，M.，Antonini，M.合成DNA的数据和图像存储：现有的解决方案和挑战。J图像视频处理。 2022, 23 (2022). https://doi.org/10.1186/s13640-022-00600-x

下载引文

收到:2021年2月24日
认可的:2022年10月4日
出版:2022年10月29日
内政部:https://doi.org/10.1186/s13640-022-00600-x