产品展示

您所在位置:首页 > 产品展示 > 正文

火爆的背后,高通量测序面临5大挑战

文章作者:www.cs-vaccine.com发布时间:2020-03-22浏览次数:873

作为医疗卫生行业的一种流行技术,基因测序近年来在临床实践中得到越来越多的认可,并逐渐应用于各个领域。特别是在提出精准医学概念后,基因测序受到青睐,解决了精准医学中许多未知问题。

如今,基因测序已形成一定的产业规模,大量企业已形成不同的形式。然而,在表面快速发展的背后,仍然存在很多技术挑战。外国媒体《GEN》Shawn C. Baker博士写到了该领域面临的困难和挑战。编译如下:

在过去十年中,高通量测序技术经历了跨越式发展,测序能力急剧上升,成本下降,这两者都是数量级的。到目前为止,世界上有超过10,000个测序设备。

在过去十年左右的时间里,主要平台公司一直致力于提高系统的易用性。 Illumina的最新台式机系统,如NextSeq,MiSeq和MiniSeq系统,均采用套件操作,以减少手动操作和启动时间。

Illumina的系统已被用于使Ion Torrent系统更易于使用,但后者的最新系统Ion S5旨在简化从设计库到数据生成的整个工作流程。

在听取了测序行业的许多进展,如强大的测序能力,更低的成本和更好的易用性之后,业内外的读者可能会错误地认为基因测序的所有困难都已经解决,所有的测序过程。障碍已被消除。

但真正的困难才刚刚开始,未来还有很多挑战。

样品质量

最容易被忽视的问题之一是:样品质量,尽管测试平台经常校准并且使用的样品经过校准,但真实世界的样品经常面临许多意想不到的挑战。

人类基因测序中最常用的样品类型之一是FFPE(福尔马林固定的石蜡包埋)。 FFPE的广泛使用有很多原因,其中最重要的是丰富性。据估计,全球有超过100亿个FFPE样本存档。 FFPE块的临床样本存储已成为工业级的标准实践,样本数量将继续增长。

除了全球范围广泛的应用外,FFPE样品通常还含有大量的表型信息。例如,FFPE样品可以与治疗方法和临床数据组合。

然而,FFPE样品的问题在于固定过程和储存条件都会导致大量的DNA损伤。

BioCule首席执行官兼联合创始人Hans G. Thormar博士认为,

“在评估了超过1000个BioCule QC平台样本后,我们看到了DNA样本中的大量变异和各种类型的损伤,例如链间,链内交联,单链DNA聚合和单链DNA破坏。 “

“如果忽略DNA损伤突变的数量和类型,可能会对最终结果产生负面影响。”

Thormar认为,这对测序等下游应用的影响是巨大的:从简单的测序文库构建失败到假文库的生成,最终导致结果错误。因此,在测序项目开始时正确评估每个样品的质量至关重要。

测序库

尽管主要的测序平台公司已经在努力降低生成原始序列的成本,但在构建测序库时并非如此。用于人类基因测序的测序文库的构建,每个样品花费约50美元,是总花费的相对较小的一部分。但在其他应用中,例如细菌基因组测序或低深度RNA测序,它占总成本的很大一部分。

一些团体研究了多样化的自制解决方案,并希望能够有效降低成本,但商业部门的发展并不多。开发单细胞测序解决方案的一个亮点,例如10X Genomics Chromium(TM)系统,允许使用基于珠子的系统并行处理数百到数万个样品。

10X Genomics的首席执行官兼联合创始人Serge Saxonov博士坚持认为,

我们相信单细胞RNA测序是进行基因表达分析的正确方法。在接下来的几年里,在世界许多地方,RNA测试将转向单细胞分辨率,我们的平台可能会引领这一领域的浪潮。

对于大型项目,例如降低样品成本,单细胞RNA测序所需的高度通用解决方案将是一个关键因素。

长读数和简短读数

Illumina在基因测序市场中的主导地位意味着到目前为止生成的大多数数据都基于短读取(短读取),高通量测序平台产生的序列称为读数,即序列读取序列。最小的测序单位)。大量短读数的生产适用于大多数应用。例如,检测基因组DNA的单核苷酸多态性和计数RNA转录物。然而,在许多其他应用中,仅短读数是不够的,例如读取基因组的高度重复区域和确定长链结构。

长读取平台,例如来自Pacific Biosciences的RSII和Sequel,以及来自Oxford Nanopore的MinION,通常产生15-20kb的读数,长度可达100kb。这样的平台赢得了科学界的赞赏,例如加州大学戴维斯分校细胞生物学教授Charles Gasser博士。

Gasser博士评论说:“我对使用长读取方法的基因组装配的成功印象深刻,特别是在与短读高保真数据相结合的混合装配中。技术组合允许小团体,小预算的单一研究人员,新的有机体组装产生可用的组件。“

为了充分利用这些长读取平台,有必要通过新方法制备DNA样品。标准分子生物学方法尚未针对超长DNA片段的分离进行优化,因此在制备长读取文库时必须小心。

例如,供应商已经创建了一种高分子量试剂盒,用于分离大于100 kb的DNA片段,优化靶向DNA方法以选择性地富集大片段DNA,并且为了最大化长读取的产量,这些方法和技术必须掌握。

一种特殊形式的短读是一种链接读取,例如10X Genomics,它可以用作真正长读数的替代品。链接读数如下生成:每个长DNA片段(通常大于100kb)包含每个产生的短读数的唯一条形码。这种独特的条形码在分析阶段将分离的短读数链接起来。它共同提供长链遗传信息,使得构建大单倍型模块和解释复杂结构信息成为可能。

Saxonov博士认为,短读序列由于其高精度和高通量,通常具有强大的功能,但只能获得少量的遗传信息。这是因为基因组基本上是重复的,并且基因组中的大量信息以长链编码。

数据分析

研究人员面临的主要挑战之一是产生了大量数据。单个30X人类基因组样本(半压缩比较文件)的BAM文件大约为90GB;对于一个包含100个样本的相对中等项目,BAM文件可以达到9TB。

Illumina HiSeq X仪器每年可以生成超过130 TB的数据,很快数据存储就成了一个大问题。例如,Broad Institute以每12分钟分析30X人类基因组的速率生成基因测序数据,每年产生近4,000 TB的BAM文件。

BAM文件可以转换为VCF文件(变体调用格式),它只包含与标准序列不同的信息。尽管VCF文件较小且更有用,但仍需要保存原始序列文件,以供研究人员在将来查看这些数据。

随着测序成本的降低,一些人得出的结论是,重新排序样本很容易也可能更便宜,研究人员在分析大量数据时有很多选择。但事实上,OMIC工具中有超过3,000种序列分析工具,研究人员很难找到最好的工具。

临床解释和报销

最后,临床样本面临挑战:为序列变异提供一致和可靠的解释。

典型的外显子含有10,000到20,000个突变,全基因组样本产生超过300万个突变。在通常的解释中,根据突变引起的相似性对疾病进行分类。

为了帮助指导临床医生,美国医学遗传学和基因组学学会,分子病理学学会和美国病理学家学会创建了一个用于分类突变的系统。目录包括致病性,可能的致病性和显着性的不确定性(目前占绝大多数外源和全基因组样本),这可能是良性和良性的。

但是,此选项有其局限性。立即使用相同的分类方案对同一数据库进行分类,不同的项目组可能会有不同的解释。在新系统的初步研究中,分类的解释仅在34%的不同临床实验室中是一致的。

如果存在分歧或需要进行额外分析来解释实验结果,则报销存在问题。基于NGS的测试报销可能是一个主要障碍,但解释报销几乎是不可能的。

Rady儿童基因组医学研究所的临床研究员Jennifer Friedman博士说,

实验室不可能为试验的解释付费。如果这项服务可用,它是非常有价值的,但没有人这样做。

没有办法支付这笔费用,保险公司不报销。尽管人们越来越关注精准医学,但临床医生或实验室的解释并未得到医疗保健支付者的认可或重视。

到目前为止,对患者样本的分析在很大程度上被视为研究项目,是研究医院的一种选择,仅用于数量有限的患者。

未来前景

据了解,尽管过去几年取得了很大进展,但从样本库建设到数据分析的整个NGS工作流程仍然存在许多挑战。随着基础技术的进步,新的挑战将继续出现,应对这些挑战对于广泛使用这些基因组技术和最大化人类健康至关重要。