图片来源视觉中国 文观察未来科技 当前,数据的指数增长的算力的飞速提升,让数据储存的需求爆增。毕竟,庞大的数据需要足够的储存空间,而计算与储存又如同好马配好鞍,两者相辅相成。计算速度与储存速度不匹配,就会遇到著名的冯诺依曼瓶颈。 好在云端硬盘的普及,才不至于出现数据储存空间不够用的情况。然而,即便是数据上云,都依然是有限的。预测数据显示,2040年时,人们将会面临必须储存了个10的24次方数据的状况。为了支撑大数据革命,现在,我们也必须重新思考数据储存的根本问题。在这种情形下,人类的DNA被视为可以储存所有东西的超小型设备的可能替代方案之一。 下一代存储技术 从磁带到USB,过去各种各样的记忆媒介已经在被开发出来。不过,今天,更多的数据被保存在数据中心里。一个存储量为10亿GB的大型数据中心,占地可达数个足球场,建设和维护成本高达10亿美元。也就是说,光是储存这些海量数据,就需要花费巨大的空间及金钱成本。 并且,现在数据产生的速度,远远要超过我们生产这些存储介质的速度,所以必须要有新的介质来解决这个难题。巨大的消耗使得人类开始寻求新的方式,对于此,如果DNA能够成为记忆媒介的话,它体积小、容量大的优点将要比任何媒介都具有高性能的特点。 要知道,人类基因组包含大约相当于750MB的信息,这么多信息就储存在一条比细胞还小得多的DNA上,并且事无巨细地告诉我们的身体,鼻子该长在哪里,眼睛该长成什么颜色,某个蛋白又该怎么合成。 其中,每个基因都是用四个字母的DNA文字写成的线性信息序列组成DNA的基本单元是脱氧核苷,每个脱氧核苷都带有一个碱基,而碱基共有四种类型,分别是腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶。而线性序列是一种常见且高效的信息存储和传递方式。 我们日常读到的这些单词和句子就是基于线性序列的,就连电脑、手机所用的代码也都是程序员用线性序列编写的。这些不同的代码都是以数字方式来存储信息的,即以少量数字的不同组合来存储的。英语使用26个基本数字,即字母表里的字母;计算机和智能手机使用1和0的不同组合;同理,DNA的数字就是4个核苷酸碱基。如果用0、1、2、3各代表一个碱基,就可以组成一个四进制的存储方式。 数字代码最重要的优势就在于,它们很容易从一种编码系统翻译成另一种编码系统。细胞将DNA编码转换为RNA,再转化为蛋白质就是基于这样的翻译过程。在翻译中,它们将遗传信息转化为实际动作,其无缝衔接的灵活方式是任何人类工程系统都无法比拟的。 计算机系统必须将信息写到不同的物理介质上才能对其加以存储,而DNA分子本身就是信息,这令它成为更简明的数据存储方式。正是因为认识到这一点,科学家们才设法开发将信息编码在DNA分子中的方法,以最稳定且节省空间的方式存储信息。 DNA不仅可以储存信息,而且信息衰减和损耗几乎为零。2019年,据《连线》杂志报道,科学家通过一种含有DNA数据的材料,用3D打印的方式制造出一只塑料兔子。结果显示,即使切下这只塑料兔子的尾巴,也可以在尾巴的DNA信息中制造出一只一模一样的塑料兔子。究其原因,则是因为DNA存储可以提供大量的信息密度和超常的半衰期。 如今全球每年产生的数据需要4180亿个1TB的硬盘才能放下,而把这些数据储存在DNA上,仅仅需要1千克DNA物质。不仅如此,依靠生物碱基不同的排列方式,这些信息还可以在18的环境储存100万年之久。相比之下,纸张会腐烂,硬盘会降解,甚至连石头也会风化,DNA却可以彻底无视这些物理过程,保留人类文明的知识和历史。 商业化并不遥远 1981年,科幻小说家威廉吉布森(WilliamGibson)发表短篇小说《约翰尼的记忆》,其中,小说的主人公正是以自己的大脑为数据记忆媒介的信息搬运商店同样的技术或许在不久的将来成为现实。实际上,关于DNA存储信息的研究早在2000年代就已经开始。 2000年,美国生物学家把一段信息刻进了细菌的体内,这段信息就是爱因斯坦著名的质能方程Emc2。2003年,又有科学家把迪士尼动画片中的一段音乐刻进了细菌体内。到了2010年,当首个人造细胞诞生时,带领该项工作的美国基因学家卡耐基文特尔则把所有参与该项目的科学家的名字刻进了人造细胞的DNA上。 多年里,科学家们在DNA储存技术研究中,展现了可以将文书档案、影片资料等几乎所有东西储存在DNA的能力。不过,DNA储存技术一直有一个大问题,就是所有的过程中依然需要众多的人力介入,而微软公司和华盛顿大学却打破了这一技术瓶颈,在信息储存与自动化解读方面获得了很大的进展。 究其原理,如前所述,数据信息以合成DNA中的碱基型态储存。DNA是由腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶四个碱基单位组成。基于此,研究团队储存了5位元容量的HELLO单词,他们将英文单词转换成0和1组成的数位信息,再排列成相应的碱基后,将它们相连制成DNA片段。 这时,人工加入可促成合成的化学液,再将其储存进特殊容器。想要读取资料时,使用生物科学研究用的DNA解读设备解析碱基的排序后,再次转换成0和1的数据信息,最终就能确认是HELLO这5个英文字母。如今,微软已经投资了1万美元开发这项设备。 当然,研究DNA储存设备的公司不只有微软而已,英特尔(Intel)和美光科技(MicronTechnology)也在投资研究;再比如,2018年接受麻省理工学院资助而成立的新创公司CatalogTechnology,他们公布将在2019年制作可以把TB容量的资料记录在DNA的设备,尺寸大约为两台货柜大小。 除了将数据存在DNA的方式,其他运用DNA的方式也带来了极大的想像空间。比如,加州大学研究团队在《自然》期刊发表了首例可再程序化的DNA计算机论文。研究中使用数个可以进行绘制图样或计算数字等简单作业的DNA键建立区块虽然这技术还无法取代实际的计算机,但是却可以在未来用于传递药物的纳米机器人或组合分子的纳米大小的工厂上。 不过,如果想要制造出DNA储存芯片的话,还有几个问题要先解决,其中之一就是解读时间与成本。根据英国科学报告(ScientificReports)发表的研究论文,储存HELLO5位元数据与再次解读出来总共要花上21个小时。另外,如果要储存几MB以上数据的话,要花上数千美元甚至数百万美元的成本。即便是微软宣布他们已经发现了可以节省一半时间,但也需要1012个小时。 同时,DNA存储费用也依然昂贵。不过,随着生物技术的发展,DNA存储费用已经呈现大幅下降趋势,就拿基因测序的费用来说,最早发现人类基因序列的计划花了27亿美元成本和十五年的时间,但是十五年过去后的现在,只要缴纳1000美元的费用给企业,就可以在数周内拿到基因分析结果技术已然变得相当大众化了。 考虑到指数型科技的成长速度,或许,DNA储存设备两三年内应该就可以商业化。并且,DNA储存设备的开发与使用还将促进生物计算机的开发。显然,大数据与人工智能的大爆发,促使人类必须找到更多的新兴算力之源,而DNA储存的创新技术,很可能就是人类未来的智能新大陆尽管DNA储存技术还处于萌芽阶段,但其作为新一代计算发展不可或缺的指路明灯趋势已现。(本文首发钛媒体APP)