在 DNA 中存储数据听起来像是科幻小说,但它就在不久的将来。Tom de Greef 教授预计第一个 DNA 数据中心将在五到十年内启动并运行。数据不会以零和一的形式存储在硬盘中,而是存储在构成 DNA 的碱基对中:AT 和 CG。这样的数据中心将采用实验室的形式,比现在的小很多倍。De Greef 已经可以想象这一切。在大楼的一部分,新文件将通过 DNA 合成进行编码。另一部分将包含大面积的胶囊,每个胶囊都装有一个文件。机械臂将取出胶囊,读取其内容并将其放回原位。

数据存储的未来在于DNA微胶囊

我们谈论的是合成 DNA。在实验室中,碱基按一定顺序粘在一起,形成合成产生的 DNA 链。当前存储在数据中心的文件和照片可以存储在 DNA 中。目前,该技术仅适用于档案存储。这是因为读取存储数据的成本非常高,所以要尽可能少查阅 DNA 文件。

大型、耗能的数据中心已经过时

DNA 中的数据存储具有许多优势。例如,DNA 文件可以存储得更紧凑,数据的寿命也长很多倍。但也许最重要的是,这项新技术使耗能大的数据中心变得过时。De Greef 警告说,这是迫切需要的,“因为在三年内,我们将在全球范围内生成如此多的数据,我们将无法存储其中的一半。”

De Greef 与博士生 Bas Bögels、Microsoft 和一群大学合作伙伴一起开发了一种新技术,使合成 DNA 的数据存储创新具有可扩展性。结果今天发表在《自然纳米技术》杂志上。De Greef在 TU Eindhoven 的生物医学工程系和复杂分子系统研究所 (ICMS) 工作,并担任 Radboud 大学的客座教授。

可扩展

使用 DNA 链进行数据存储的想法出现于 1980 年代,但在当时过于困难和昂贵。三十年后,当 DNA 合成开始腾飞时,这在技术上成为可能。哈佛医学院遗传学家乔治丘奇在 2011 年详细阐述了这个想法。从那时起,合成和读取数据的成本呈指数级下降,最终将该技术推向市场。

近年来,De Greef 和他的团队主要研究读取存储的数据。目前,这是这项新技术面临的最大问题。目前用于此的 PCR 方法称为“随机访问”,非常容易出错。因此,您一次只能读取一个文件,此外,每次读取一个文件时,数据质量都会下降太多。不完全可扩展。

它是这样工作的:PCR(聚合酶链式反应)通过添加带有所需 DNA 代码的引物来创建数百万份您需要的 DNA 片段。例如,实验室中的冠状病毒测试就是基于这样的:当复制这么多次时,即使是从你鼻子里取出的微量冠状病毒物质也能被检测到。但是如果你想同时读取多个文件,你需要多个引物对同时完成它们的工作。这会在复制过程中产生许多错误。

每个胶囊包含一个文件

这就是胶囊发挥作用的地方。De Greef 的小组开发了一种蛋白质和聚合物的微胶囊,然后每个胶囊锚定一个文件。De Greef:“这些胶囊具有我们可以利用的热特性。” 在 50 摄氏度以上,胶囊会自行密封,从而使 PCR 过程在每个胶囊中单独进行。那时没有太多错误的余地。De Greef 将此称为“热密闭 PCR”。在实验室中,到目前为止,它已经成功地同时读取 25 个文件而没有出现重大错误。

如果您随后再次降低温度,副本就会从胶囊中分离出来,而固定的原件会保留下来,这意味着原始文件的质量不会下降。De Greef:“我们目前在三次读取后损失了 0.3%,而现有方法为 35%。”

可通过荧光搜索

这还不是全部。De Greef 还使数据库更易于搜索。每个文件都有一个荧光标签,每个胶囊都有自己的颜色。然后设备可以识别颜色并将它们彼此分开。这就把我们带回了故事开头想象中的机械臂,它会在未来从胶囊池中整齐地挑选出想要的文件。

这样就解决了读取数据的问题。De Greef:“现在只需等待 DNA 合成成本进一步下降。然后该技术将准备好应用。” 因此,他希望荷兰能够很快开放其首个 DNA 数据中心——世界第一。