领导关怀

您所在位置:首页 > 领导关怀 > 正文

中科院院士陈润生:基因大数据将带来全新的生物和医疗产业

文章作者:www.cs-vaccine.com发布时间:2019-12-06浏览次数:899

11月1日下午,首届中国智谷会议和人工智能与产业创新峰会在江苏省南京市召开。会议的主题是“感知时代,创造中国”。中国科学院院士,中国科学院生物物理研究所研究员陈润生应邀发表演讲。

陈润生院士因完成中国完整基因组第一次完整的生物信息学服务而闻名。他在演讲中详细阐述了大数据在生物医学领域以及精准医学领域的广泛应用前景,并指出中国目前在发展过程中面临挑战和机遇。

陈润生院士对精准医学有四个主要观点。首先,精准医学的本质是大数据和临床医学的结合。其次,精准医学可以将医疗保健的基本概念从目前的诊断和治疗推广到健康。保证;第三,精准医学的基因测序数据可以促进相关产业的分子诊断和药物设计目标;第四,新的医疗设施与精准医学的概念,以及卫生工作者的新型职业。

最后,陈润生认为,目前精准医学面临的挑战是如何利用基因测序阈值来减少数据带来的大数据和数据背后的价值。

据了解,本次会议由新华网股份有限公司和南京市经济信息委员会主办,清华大学智能技术与系统国家重点实验室联合主办。中国科学院沉阳自动化研究所机器人国家重点实验室,清华大学全球工业4.5研究所及其他机构提供支持,新华网荣媒体未来研究所,新华网移动互联网产品创新研发基地和江宁经济技术开发区。

以下是陈润生院士的记录:

陈润生:亲爱的专家和领导,我很荣幸参加这次会议。我想今天我将谈论大数据和精准医学,因为现在每个人都知道精准医学非常热,虽然它仍然比人工智能小。兄弟,但我们知道,自2015年国际精准医学讨论以来,在包括我国在内的许多发达国家,不仅是每个人都非常关注的领域,而且我们的国家领导人对精准医学的发展也很重要。说明也反映在资金中。

所以今天我主要谈谈精准医学的四个方面。如你所知,2005年1月20日,美国总统巴拉克奥巴马(Barack Obama)在美国进行了精密医学研究。从那时起,精准医学在世界范围内普及。重视精准医学的时间是不够的,但热量很高,所以我在四个方面谈谈我自己的看法,一个是与你沟通,我希望能够开始一些讨论。

第一个问题,精准医学的本质是什么,核心是什么?我在中国看过各种各样的评论。我已经讨论过精密医学的各个方面。我认为精准医学的核心实际上是一点点。很明显,就是大数据和医学的结合。更具体地说,它是群体大数据和临床医学的结合。

换句话说,在临床医学中使用群体大数据来提高医学诊断的准确性,提高治疗效果。然后在这里,包括两个含义,一个意思是小组学习的大数据,另一个是医学。那么群体大数据包括两个含义,一个是组学,另一个是大数据。我们知道,近年来,随着临床研究的发展,我们在基因组所代表的分子水平上获得了越来越多的人类信息。这是前所未有的。然后,随着基因组所代表的组学数据的发展,人们正在积累越来越多的关于遗传密码的信息,不仅包括遗传信息,还包括蛋白质信息。后来,人们发现挖掘这些信息将获得大量反映人类健康和疾病的信息。

因此,有人建议,如果将这些信息应用于临床,肯定会提高临床效果。这是精准医学的本质意义。然而,仅获得这些遗传密码的信息是不够的。众所周知,所有遗传密码的信息都是非常大量的大数据。这些大数据非常容易衡量,包括我们现在在我们国家所知道的。每个人都可以获得元的遗传密码,但是你不了解你的遗传密码,因为它只有四个字,所以要读他,你需要开发大数据分析。理论方法和技术,因此必须在大型临床研究中使用组学数据和大数据分析方法的组合。因此,它的一部分是群体大数据,一部分是医学,两者结合起来形成精准医学的本质和核心。这是第一个问题。关于精准医学的本质,他也是因为该团体而来自实际的90年代。用于临床开发的学习数据不能转化为转化医学,个性化医学,现在从2011年开始有精准医学的名称,但无论如何,他的本质是明确的,即群体大数据在临床医学中的应用。

第二个问题,精准医学给医学带来了什么样的重要变化?如果精准医学只是稍微增加药物,我认为精准医学不一定会吸引更多领导者的注意,那么它会引起更多领导者的关注,精准医学的内涵必然会有一些本质的变化,那么什么是这个重要的变化?总之,精准医学本质上引起了各国领导人的关注。精准医学具有改变医疗健康潜力的基本概念。也就是说,医疗的基本概念已从目前的诊断和治疗转变为健康保障。我们知道目前的医疗系统面向患者,那么他主要治疗所谓的治疗患者。但是,由于未来精准医学的发展,由于群体大数据的干预,这个时间不仅健康。它仅适用于患者,适用于全体患者。如果我们测量他的全知数据并在他没有生病时分析组学大数据,那么他可以评估他未来健康发展的风险因素。适当的干预,使一些疾病不发展,一些疾病降低他的程度,提高他的生活质量,使整个医疗卫生系统向前推进,并在疾病生病前评估和保证胃病。一些人认为,概念的根本变化可能会导致一些新兴产业的出现。有人预测,所谓的精准医学转型所带来的新概念可能会导致到2018年改变2000亿美元。我不知道,这个数据是一些国际评估,当然,如果是200亿美元。相当于2万亿元,对GDP有影响。精准医学带来的自然概念的这种变化必将引起各国领导人的关注。这是第二个方面,估计通过完成药物可能会带来一些重要的变化。

无论许多国家的精密医学研究已经成为新一轮国家科技竞争和国际领先战略的制高点,美国精准医学的发展,我们都知道美国需要衡量100万自然人的遗传密码。欧盟也在积极推动所谓的精准医学研究,包括英国,法国等。日本也正在开发精准医学。开展与精准医疗相关的投资和规划。那么,我们如何才能仔细分析精确的药物,以及以何种方式促进行业的转型和发展?我认为至少有四个方面。第一个是促进大量生物样本数据库和数据库的发展。如您所知,由于推广精准药物,需要测量数百万人。首先,组织学信息涉及为数百万人获取,储存,提取和提供生物样品,这当然是一个大型工业。同时,这些样本的数据大约为数百万,这必须促进相应的大型数据库的发展。据估计,该行业的规模可能在100亿左右。

其次,对于这些样本,我们需要测试基因组所代表的基因组数据,因此我们需要测试基因组,蛋白质组,转移组。如你所知,这些测序数据现在已经进入公民的所有事件,所以你知道,测试你的遗产代码,就是这样。据估计,到2018年,这样一个序列的规模将达到117亿美元。因此,随着样本库和粗略数据的测量,在这些海量数据挖掘的基础上的下一步可以促进大量新的分子诊断指标的生产,我们知道,将增加很多与疾病相关的信息,其中许多可以用作新疾病的标志物。同时,可以找到许多新的药物设计目标,这促进了第三产业。所谓分子诊断和药物设计目标相关产业。

第四个当然是新的医疗设施,与精密医学的概念。例如,有必要建立一些卫生资源和一些卫生工作者。这些行业如今可以与医院和医生联系起来。这个行业不可避免地会带来变化,而且已经在国内得到了反映。数百家小公司逐渐建立起来。当然,他们是如何获得更好的发展还没有讨论。

我国精密医学的发展目标没有详细描述,与国际接轨。在这第二个方面,精确医学能带来什么样的本质变化,如何促进工业的发展,以及几个行业的发展都能起到领导或引导作用。

我想说的第三个问题是实现精确医学。你想做什么?有什么可以做得更精确呢?所以精密医学,我想至少有两个条件。第一个必须有集团大数据的基础。我们知道,精密医学是在临床实践中使用群体大数据,所以首先要获取群体学习大数据,然后是基因组学、蛋白质组、转移组、代谢组等,这些数据都是无用的,第二步是挖掘群体数据,挖掘将使用群体大数据。他提出了数据分析的理论方法,包括张先生刚才提到的人工智能方法、深度学习方法等,这种基于知识的方法用来挖掘这些组学,从分子水平上获得与疾病相关的知识。它是第一个基础。

利用临床疾病中使用的这些分子知识和组学知识,我们必须建立第二个基础,即建立由基因型代表的信息核的分子水平。信息转换应用于疾病的诊断和治疗。那么这就是建立所谓的生物信息学,生物网络,系统生物学等。有了这两个基础,我们当然可以更好地实现精准医学。一个非常重要的事情是精准医学的发展应该与当前的临床成像,临床生化测试和当前的临床知识很好地结合。并不是某些公司已经确定了他们的测量顺序。实际上,情况并非如此,应该更好地结合起来以使其更准确。精准医学只是将新数据应用于原始数据以使其更好。

据说处于第四阶段的精准医学处于什么阶段?众所周知,也许我们目前的精准医学已经成为每个人的热门话题。每个人都认为我们现在可以做到一切准确。医学很容易准确。我个人的观点,精准医学,虽然它实际上可能带来变化,可能引领新的行业发展,也许行业的规模是巨大的,但现在它只是在路上,刚刚开始!为什么?在精准医学的概念下,我们仍然面临着巨大的挑战,我们仍然面临着巨大的困难。因此,我将在下面举一个或两个例子来说明目前整理药物的困难。

为什么精准医学只是在路上?我们的创新机会在哪里?我们在哪里面临挑战?在我的小组学习中,我只会举一个例子。在我们的临床代码中,在我们的小组研究中,仍然有很多黑暗的信息。我们所谓的临床密码费用元来衡量你可以采取我自己的遗传密码,但现在我们只能分析一小部分法则,这就是基因组中所谓的黑暗信息,这是一个人的遗传代码,我们在这里有你们所有人,我也有,然后像这样的遗传密码,许多重要的地方正在影响整个人的生产和法语。我们是3-10九个权力。如果你花1万元,很容易测量密码。如果你转向侧面,每3000个数量到一页,100页强大的一层,如果你把自己的临床密码放入密码,它是10,000份,每页3000个字符是你自己的遗传密码,我相信就个人而言,很容易获得。您可以获得此密码。如果你读每页一千厘米,我们自己的书是厘米,这是一个白米饭。每个人都可以想象你的遗传密码与四十层楼的地板一样高。每个页面都是这样的。如果你读它,你会准确的。我相信没有人可以准确。我想告诉你世界各地的所有科学家。智慧,包括生物医学科学家的智慧,这一次,现在是我们的集体世界,我告诉你,世界上可以定期理解的部分只占这种遗传密码的3%。我已经多次报道过这个概念。要把这些信息传递给大家,似乎每个人都认为我现在知道这个密码,不是最多,只有3%,其他97%实际上并不了解世界的智慧,大多数都不了解。

好吧,我会给你一个最普遍的证明。如果你去看看,2010年12月17日,每个人都知道,每年12月的见解将被选为2010年12月的自然科学十大突破。本期第17期评论了十大科学突破。一个是年份,另一个是人类进入21世纪并进入了这个世纪。十年来,这个十年已被添加,即与我们最接近的十年。在将所有事物放在一起的那一年,自然科学领域不仅是生物医学,而且是自然科学中最值得关注的十件事。出现的第一个就是这个。每个人都很容易找到这个,因为这个见解非常容易找到。他说什么,表明我们的基因组或我们的遗传密码中的暗物质,意味着我们的大部分遗传密码到目前为止仍然是黑暗的,那就是97%是黑暗的,我想让我在下面给你一些扩展的解释。

首先,从遗传密码的角度来看,事实上,我们97%的遗传密码,从整体上来说,从法律上来说,我们人类仍然不理解,我们从中学知道的3%人都知道,尊重中心蛋白质信息的发展,3%是蛋白质生产的遗传密码。我们知道他的分类并了解他的信息,但其他97%的遗传密码与蛋白质组的产生无关。知道他在做什么,这就是遗传密码中的所谓暗物质,也是遗传密码中的非编码序列。然后我们可以考虑这个概念,当我们测量遗传密码时,97%的密码仍然是未知的。我们怎么能在这种情况下准确?因此,它远非精确。

我举一个战时比较基因组的例子。这是与人类基因组一起测量的模型生物。每个人都看到顶部是大肠最短的感觉。它是大细胞的圆形细胞生物。没有细胞核。你可以看到顺便说一下,这整体代表了他的遗传密码,85%是红色的,或85%用于编码蛋白质,都知道分类的一部分,所以对于一个非常低级别的生物,如果你测量他遗传密码,你知道他的生活在85-90%,哪些蛋白质是已知的,但生物学更高。我们来看看中间的酵母。这是一种单细胞真核生物,略高一点。您可以看到,他用来编码蛋白质的部分或分类的部分减少到70%,未编码的部分增加到28%。让我们来看看最右边的一个,即Fairchild。这很简单。细胞生物学虽然简单,但已经多细胞,许多细胞,而不是单细胞。此时,您可以看到编码蛋白质的部分减少到28%,非编码部分增加到71%。果蝇,昆虫,红色部分减少到17%,非编码部分增加到82%,97-98%是非编码序列,所以一个所谓的比较基因组进化逻辑告诉我们,我们可能从简单到复杂,从地面到更高,蛋白质更多,错误。事实上,生物从简单到复杂,从地面到更高,增加的是非编码序列,到目前为止我还不了解法律。这对我们来说是准确的,你做基础生物学的巨大挑战是我们现在感到困惑。事实上,在测量我们的遗传密码后,我们发现我们大多数人仍然不知道生物效应。

有些人有两个职能发挥作用。遗产代码被称为基因,生成生物有一个重要条件。我们的信息将被分发。有了生物学的东西,这个遗产代码必须转向,第二个进入21世纪。科学家提出了这个问题,称这些占人类基因组遗传密码的97%。它是一个正确的产品吗?有信息要分发吗?换句话说,他是否积极行使职能?我不会详细说明这个结果。这个结果是100%正面的。寻找这些非编码序列就像我们制造蛋白质的基因一样。它表达的每一刻,每时每刻,所以他们真的在做生物功能,然后我可以举几个这些事的例子,他与肿瘤的关系,当然,虽然我们不完全理解它,但有一些支离破碎举例说明他的生物学功能。例如,有一种来自97%的产品,称为PCGEM1,它可以引起前列腺癌,而不是由蛋白质引起的,更重要的是,MALAT-1可以导致细胞肺癌。我们都知道我们国家的肺癌正在增加。在速度上,我们现在在临床医院,用于检测肿瘤的指标是我说的3%,治疗目标也是你使用的药物的3%。我现在告诉你,97%,有很多例子。他也与癌症有关,但它从未被纳入我们的临床诊断和治疗。你认为这种肿瘤能治好吗?大脑中没有概念。你没有考虑过他。当然,我没想到会发现并对待他。当然,例如,代谢性疾病是相同的,也就是说,我们仍然有97%更严重的情况相关的事情到目前为止尚未如此融入我们的诊断和治疗愿景,即所谓的黑暗精准医学面临组学的信息。很大的挑战。

当然,也有好的。如您所知,H19是非编码序列的重要组成部分。他可以保护我们。如果我们的一些细胞变成癌细胞,我们可以通过细胞样途径将它们摧毁。这就是我们所知道的P53。同样,我们知道97%与我们的疾病和健康有关。我们找到的这些代码中有多少找不到。众所周知,3%的人很容易知道。我们可能有一个基因。这是基本预防。我们97%的人现在可以评估。他有多少原件?我知道我们不了解人。出于道德原因,老鼠,他的基因研究已经做了研究,并且所有原件都是采取的,无论你是编码还是非编码,共发现181,000。这是实际执行鼠标功能的原始函数的下限。事实上,它肯定比他大。在此发现3%的含义决定了20,000。换句话说,我们仍然有161,000。 97%,这个161,000,据我所知,世界上有多少科学家分析过,大约有1000个,换句话说,还有160,000个机会,你找到了一个新的功能原创,你做了他的功能,毫无疑问他是发表于Insight非常好,现在告诉大家仍有16万个机会,有太多机会发现一些非常重要的组件功能。这两个区域在2016年由这两个区域进行了97%的研究,我曾经开过个玩笑,说每个人都有3%计算从1900年开始研究约有50%Noel近3%的赢家,现在知道有97% ,97到3,大约1300左右,所以我们有超过一千个机会在这个领域做出原创和特殊的贡献,只有一个地方被占用,所以我们有巨大的机会。然后这是他们依靠获得诺贝尔奖的论文。

因此,从精准医学的角度来看,我们现在做不到的准确性是因为存在巨大的数据。他唯一的两根手指没有挖掘,但另一方面,他可以给我们一个全新的。这个机会,无论是对技术研究还是产业发展的巨大研究,所以非编码研究无疑将为疾病的诊断和治疗提供新的诊断方向,或为药物的设计和开发提供新的平台,对于新物种,新特性的培育提供了新的基础。组学有很多方向。精准医学才刚刚开始。时间和时间之间的关系是两三分钟。我认为大数据,每个人都是大数据专家。我想我只能很快谈论这个话题。事实上,在分析大数据时仍然存在一些核心挑战。第一数据量很大。众所周知,当前的音序器可以在一次普通操作中转到1T。数据方面,世界上有成千上万的这类仪器,包括所谓的数据,在我的小组中得到一个T,所以这些数字量非常大。然后每个人都有3×10九种力量。测序时,他测量了他的基因组并使用了100万美元。现在每个人都知道,只需1万美元,您就可以获得自己的遗传密码。

这些数据告诉您,就数据质量而言,他的噪声非常高,同时大量此类数据源缺失值。第二个样本非常小,我们要解决肿瘤问题,但我们知道肿瘤变量,自变量可能是几万个,但我们的样本只有一百个数量级,那么我们为什么要测试,例如,要研究肿瘤或心脑血管疾病,他自己的变量是数千个订单,我们的百万级,就像政府一样,测量一百万人就足够了。其次,我们建立一个合适的数学模型,以便我们可以匹配,而不仅仅是一个特定的基因,它还涉及到网络。这些网络知道这些网络是动态的,有些是不同的。每个人都知道,不仅是群体数据,还有生物数据,我们需要的不仅仅是科学和技术界。我们知道我们的国内数据共享存在根本问题。如果数据共享问题没有解决,我们就是在大数据,小数据工作时代,发布小数据的公司,显然不能适应国际竞争的趋势。所以我在后面非常粗糙,对不起,占用每个人的时间,谢谢!