关闭

2022年6月28日

简而言之,人类所有的源代码

这个软件遗产的使命是到收集,保存、和分享以源代码形式公开提供的所有软件,满足文化遗产, 行业,研究以及整个社会。

作为我们长期使命的一部分,我们专注于改进软件遗产基础设施,并寻找未来可能会彻底改变存档方式的新兴技术。

2022年5月,我们有幸参加了这个MoleculArXiv发射事件这是一个雄心勃勃的多学科研究项目,旨在探索DNA链中存储信息的新方法:Software Heritage将提供一个用例,旁边法国国家视听档案馆,法国国家图书馆以及欧洲议会的档案。

磁带,尽管其历史悠久,但目前是长期存档的首选方法。成熟的技术已被证明是可靠和可靠的,并被世界各地的大多数数字档案管理员所使用。然而,磁带存储并非没有缺陷。磁带的格式不断发展,迫使用户不断升级磁带库和驱动器,以跟上物理和逻辑标准。这种迁移是一场与时间的赛跑,人们已经担心磁带上记录的最古老的内容(例如,近一个世纪前录制的语音、广播或音乐等音频内容)可能会因缺少磁带播放器而丢失,这引发了数字黑暗时代的幽灵。磁带也很笨重,需要机器人来处理数PB的数据。最后,磁带本质上是具有顺序存取功能的线性介质。磁带必须通过机械方式缠绕到所需的位置,这使得读写操作非常繁琐。 

档案工作者仍在寻找一种理想的媒介,一种经久耐用、结构紧凑、易于获取的媒介,但在几十年或几百年内仍能被确定地阅读。DNA可能是最终的存档介质。储存地球上所有生物的遗传信息是大自然久经考验的解决方案。DNA的化学结构几十亿年来没有改变,只要周围有人类,我们就能够读取它。DNA分子也很耐用:远离光、空气和水,DNA可以稳定数千年。最后,DNA的密度令人难以置信:它有潜力在不到100克的DNA中存储世界上产生的所有数据(尽管实际密度取决于技术选择)。

科学家、技术人员和决策者并没有失去DNA在数据存储方面的巨大潜力。最古老的概念证明是几十年前报道的,一个小而多样的社区在这方面很活跃。但到2022年,我们的办公桌上仍然没有DNA驱动器。为什么?其中一个原因是写入DNA的核心技术(磷酰胺化学)缓慢而昂贵:在DNA中写入几千字节的数据需要大约100欧元和几周的时间。(这种化学物质甚至不环保:它将DNA浸泡在大量有害溶剂中)。 

看看它,磷酰胺化学无法应对海量数据存储的挑战就不足为奇了。它是40年前为有特殊需要的生物学家发明的:他们只需要几股DNA,但他们的序列必须是完美的,因为生物代码(规定DNA如何转化为蛋白质)不能纠正任何错误。如果我们必须做一个比较,现在用磷酰胺化学写大量数据有点像在印刷机发明之前要求抄袭僧侣复制《圣经》:结果会完美而美丽,但生产速度会非常慢。 

正如古腾堡没有通过完善脚本来大规模出版一样,我们需要发明全新的技术来大规模地写入、处理和读取DNA中的数据。这种彻底改组的愿景得到了世界各地许多学术和工业团队的认同,旨在推动DNA数据存储的革命。一些团队专注于将DNA的书写与微电子技术大规模并行化,利用微型化和自动化(在某些方面类似于印刷机械化)带来的巨大收益。其他团队试图组装现有的DNA块以写入信息(这一想法是近三十年前提出的,可以被视为相当于组装一组预定义的块以进行打印)。所有这些努力都令人印象深刻,但最终,它们都依赖于相同的“墨水”来书写DNA,即磷脒化学。

CNRS项目MoleculArxiv正在寻求一种书写DNA的新方法,一种新的“墨水”,可以将DNA的书写速度提高几个数量级,同时具有环保性,适合大规模数据存储。通过组建一个由化学家、物理学家、工程师、生物学家和计算机科学家组成的多学科团队,该项目旨在围绕这项技术建立一个生态系统,提供一个端到端的解决方案来存档DNA中的数据。

机构最终用户(如Software Heritage、BnF、INA或欧洲议会)的参与至关重要。他们将从一开始就帮助定义规范和期望,并允许MoleculArxiv团队了解和考虑他们的需求。这种由技术专家和最终用户组成的伙伴关系将有助于避免技术开发中经常出现的陷阱,技术专家在真空中开发新方法,但经过多年的努力后,他们才意识到,这并不是世界所期望的(“更好的捕鼠器”综合症)。 

在这个框架中,软件遗产从技术一开始就发挥着作用。在实际水平上,单个源代码足够小,可以在MoleculArxiv技术的早期实现,因为大多数源代码都足够小(~10 KB),可以容纳单链DNA。这与图像(~MB)或视频(~GB)形成对比,后者将被分割成数千或数百万条线,这将需要大量的技术开发。在概念层面上,源代码本身就是一个世界,形成了一个复杂的生态系统,类似于生物体的一套遗传程序。单个源代码依靠其他源代码提供的函数执行定义良好的函数。这自然会在源代码之间生成一个复杂的依赖关系网,这对于开发人员来说通常是一场噩梦(推动容器和虚拟机的开发),但在分子水平上进行概念化将是非常有趣的。MoleculArxiv和Software Heritage将密切合作,制定优雅高效的方法来存储和检索源代码,以解决这些复杂的依赖关系。

如果按计划进行,几年后我们将能够保持完整软件遗产档案的完整冷拷贝(按PB的顺序),装在一个众所周知的小坚果大小的胶囊中!

你可以找到官方公告,并在CNRS网站上在线提及用例。

有关更多信息以及MoleculArXiv的进度,请按照Twitter帐户.

多亏了CNRS公司启动如此雄心勃勃的项目!

2022年6月28日