产品展示

您所在位置:首页 > 产品展示 > 正文

机器学习模型提供了有关蛋白质的详细信息

文章作者:www.cs-vaccine.com发布时间:2020-04-25浏览次数:1842

今天在开放获取期刊eLife中描述了一种能够读取和分析蛋白质序列的新机器学习“工具箱”。

该研究表明,在训练读取序列数据时,称为限制玻尔兹曼机(RBM)的人工神经网络可以提供有关蛋白质结构,功能和进化的大量信息。它被认为是第一种只能从序列数据中提取这种细节水平的方法。

蛋白质由称为氨基酸的分子序列形成,其决定给定蛋白质的结构和功能特性。但要了解序列的哪些部分负责哪些属性具有挑战性。 “回答这个问题可能会对药物开发产生重大影响,”共同作者Jér?meTubiana解释说,他是博士。法国巴黎高等师范学校(ENS)物理实验室的学生。 “例如,它可以帮助设计具有所需功能的新蛋白质,或预测未来生物体中蛋白质的序列进化,如病原体,并确定合适的药物靶标。”

为了探索这个问题,Tubiana和他的合作者将RBM应用于20个蛋白质“家族” - 一组具有共同进化起源的蛋白质。研究人员为四个蛋白质家族提供了详细的结果,包括两个名为Kunitz和WW的短蛋白质结构域,一种名为Hsp70的长蛋白质蛋白质,以及用于基准测试的合成晶格蛋白质。

他们发现,在学习之后,RBM中人工神经元之间的联系是可解释的,并且与蛋白质结构,功能(例如活性)或系统发育蛋白质序列之间的进化关系相关。此外,该团队发现他们可以使用RBM通过随机组合和升高或降低不同的人工神经元来设计新的蛋白质序列。

“我们的RBM模型演示了机器学习技术如何解决复杂的数据识别,并以可解释的方式从数据中得出结论,”共同作者,ENS物理实验室CNRS研究主任Simona Cocco说。 “这与传统上用于数据科学的更复杂的黑盒模型背道而驰,因为这些工具提供的统计分析在很大程度上是无法解释的。我们的方法的可解释性是一个主要的好处 - 它承诺允许它们以受控的方式生成具有所需功能的蛋白质。“

“将我们的模型应用于病原体中的蛋白质现在非常有趣,”资深作者RémiMonasson补充道,他也是CNS物理实验室的CNRS研究主任和法国HenriPoincaré研究所(CNRS/Sorbonne大学)的副主任。 “病原体,尤其是病毒,经常可以通过突变使药物无效。我们的方法可用于预测功能蛋白质从其当前序列的逃逸途径,并帮助确定哪些蛋白质位点组合应该是药物旨在阻止所有道路。“