领导关怀

您所在位置:首页 > 领导关怀 > 正文

两斤DNA装下“全世界”

文章作者:www.cs-vaccine.com发布时间:2020-02-22浏览次数:647

对于Nick Goldman来说,在DNA中编码数据的想法始于一个笑话。

那是在2011年2月16日,Glodman和生物信息学领域的一些朋友在德国汉堡聊天,主题是他们如何存储来自世界各地的基因组序列和其他数据种子。他记得当时的科学家们对传统计算机技术的成本和局限感到恼火,他们开始开玩笑说他们可能会尝试使用科幻方法。 “我们想,'什么能阻止我们使用DNA存储信息?'”

然后,笑声突然结束。 “那是一个无知的时刻。”高盛表示,他是英国Simpton的欧洲生物信息学研究所(EBI)的团队负责人,当时他们考虑用硅基存储芯片读取和写入信息。与微秒时间范围相比,DNA存储可能非常慢。通过合成DNA链以形成特定的基础模式可能需要数小时来编码数据,并且使用测序机器需要更多时间来恢复该信息。但如果使用DNA,整个人类基因组可以融入人眼看不见的细胞中。对于纯信息存储密度,DNA可能是在硅之外存储长期信息的最佳方式。

“我们用餐巾纸和圆珠笔坐在酒吧里,”高曼说,然后开始记录我们的想法:“需要做些什么来使它起作用?”研究人员最关心的是DNA合成和测序经常出错和最多每100个核苷酸的错误发生。这可能使大规模数据存储完全不可靠,除非他们能找到纠正它们的方法。他们可以将这些信息编码到基对中以识别和解决错误吗? “经过一夜的讨论,”高曼说,“我们知道我们可以。”

DNA数据存储

高盛和EBI的同事Ewan Birney将这个想法转移到了实验室。两年后,他们宣布成功使用DNA编码五个文件,包括莎士比亚的十四行诗和一小部分马丁路德金。《我有一个梦想》演讲。那时,哈佛大学生物学家乔治丘奇和他在马萨诸塞州剑桥的团队已经发表了一个使用DNA编码的单独演示。但当时EBI的文件是739千字节(kB),直到7月,当微软和华盛顿大学的研究人员声称编译了200兆字节(MB)的文件时,它才是有史以来最大的DNA文件。

使用DNA作为存储介质的最新实验信号超越了基因组学的范围:世界正面临数据倾销。到2020年,从天文图像和期刊文章到YouTube视频,全球数据档案预计将达到44万亿千兆字节(GB),是2013年信息量的10倍。

这就是为什么现在很难获得依赖于永久文件的老式磁盘记录的数据。这些信息媒体存储比硅更密集,但读取速度很慢。然而,尽管这种方法变得越来越不可持续,华盛顿特区美国情报高级研究计划局(IARPA)的计算神经科学家David Markowitz说。

他说,很难想象数据中心磁带机上有Aibyte(10亿GB)的信息。这样一个中心将耗资10亿美元在10年内建造和运营,并需要数亿瓦的电力。 “分子信息存储有可能将这些条件降低三个数量级,”Markowitz说。如果信息可以打包成类似于大肠杆菌基因的密度,那些全球信息存储需求可能只需要大约1千克的DNA。

实现这一潜在目标并非易事。在DNA成为传统存储技术的可行竞争者之前,研究人员需要克服一系列挑战,包括DNA编码信息的可靠性和用户需要的信息恢复,以便使核苷酸链便宜和方便。

然而,正在开展工作来应对这些挑战。北卡罗来纳半导体研究公司(SRC)正致力于DNA信息存储。 SRC主任兼首席科学家Victor Zhirnov表示,“10年来,我们一直在寻找数据存储以外的物质”。 “这很难取代。”但DNA作为强有力的候选人之一似乎“很有可能发生”,他说。

长期记忆

第一个用4个DNA碱基对绘制1和0等数据的人是艺术家Joe Davis,他于1988年与哈佛大学的研究人员合作。他们将DNA序列插入到大肠杆菌中,仅编码35位。在组成5 * 7的矩阵之后,所有1对应于暗像素,所有零对应于明亮的像素,形成古老的德国诗歌,记录生活和女性的故事。

现在戴维斯正在与Church的实验室合作,从2011年开始探索DNA数据存储。哈佛团队希望这种应用有助于降低合成DNA的高成本,就像基因组学降低了测序成本一样。教会与现在加州大学洛杉矶分校的Sri Kosuri和约翰霍普金斯大学的基因组专家袁高合作,于2011年11月进行了概念验证实验。该团队使用了许多短链DNA来编码659 kB Book co - 由教会讲道。每个短链的一部分是一个地址,解释了这些片段应如何排序,而其余的短链包含数据。最后,在对这些链进行测序后,Kosuri,Church和Gao发现了22个错误,这些错误对于可靠的信息存储来说显然太多了。

同时,在EBI中,Goldman,Birney及其同事也在使用大量DNA链来编码他们的739 kB数据存储,包括Watson和Rick关于双螺旋结构的标志性文件的图像,文本,视频文件和PDF文件。脱氧核糖核酸。为了避免重复的基础和其他错误,ENI团队采用了更复杂的方法。通过使用100个重叠的基础长链逐渐改变25个碱基,ENI科学家还确保在基础组件中有不同的纠错和交叉参考版本。

不过,具有讽刺意味的是,他们仍然失去了25个基地中的两个。然而,这些发现使得高盛认为DNA有可能成为一种低成本,长期的数据存储介质,只需很少的能量即可实现海量数据存储。 “也许十年之后,没有人会相信磁带存储。如果你需要保证文件的副本安全,一旦你可以把它写在DNA上,你可以把它扔进一个洞里然后忘记它直到你希望那天你重读它。“

新兴地区

自2013年高盛谈到英国DNA存储问题以来,这种可能性引起了华盛顿大学计算科学家Luis Ceze和雷德蒙德微软研究公司Karin Strauss的注意。 “DNA的密度,稳定性和成熟度使我们对它非常感兴趣,”施特劳斯说。

计算科学家Olgica Milenkovic及其同事在伊利诺伊大学厄巴纳 - 香槟分校开发了一种随机访问方法,可以重新编辑编码数据。他们的方法可以存储数据,同时处理长链DNA两端的序列。然后研究人员使用聚合酶链反应或使用CRISPR-Cas9来选择,添加和重写DNA链。

科苏里说,DNA数据存储的其他挑战是扩大和加速合成分子,并承认由于这些原因,他对这种方法并不乐观。他回忆说,在哈佛大学实验开始时,“我们做了700kB。它比1000MB多1000倍,这就是CD的容量。”要真正解决全世界数据文件的问题,至少需要存储容量的字节。 “这并非不可能,”科苏里说。 “但人们需要意识到,这么大的规模是基于百万倍的增长。”这当然不容易。

高盛认为,这只是时间问题。 “我们的估计是,我们需要将存储容量增加100,000倍才能使这项技术的优势显而易见。我们认为它非常可靠。“他说,”过去的表现可能无法解释。现在每两年就会出现新的阅读技术。六个数量级的增长只是基因组学的一块蛋糕。请稍等。“