Py学习  »  机器学习算法

「文献阅读」MGI全流程PCR-Free搭配机器学习变异检测

生信媛 • 4 年前 • 568 次点击  

最近注意到,华大MGI于2019年12月23日在BioRxiv平台预印了一篇文章(https://www.biorxiv.org/content/10.1101/2019.12.20.885517v1),详细描述了MGIEasy PCR-Free 建库试剂盒配合华大测序仪DNBSEQ的滚环扩增测序原理,达到的真正的”全流程PCR-free”所展现的优异准确性。

 

在Illumina事实垄断测序仪市场的大背景下,MGI推出的一系列国产测序仪为业界提供了新的选择,尤其是2018年底发布的DNBSEQ-T7,其性能、价格和准确性受到了广大行业用户的广泛关注,本篇文章也是DNBSEQ-T7的准确性数据首次以学术文章形式发表。

 

 

全流程PCR-Free

 

文章首先介绍了目前高通量测序中被广泛使用的PCR技术所带来的问题。PCR主要用来进行DNA模版扩增及文库信号放大。然而PCR扩增中会产生并积累错误,进而产生变异检测错误,覆盖不均一,数据GC偏向,浪费测序数据等问题。

 

为了解决这些问题,2009年出现了最早的PCR-Free建库方法,然而在后续的测序步骤中,市场上的主流测序仪仍然使用PCR方法来放大文库信号,并没有从根本上解决PCR复制中的错误累积问题。MGI的MGISEQ/DNBSEQ系列测序仪采用滚环扩增(Rolling circle amplification, RCA)技术,配合MGIEasy PCR-Free建库试剂盒,真正实现了“全流程PCR-Free”测序,杜绝PCR过程带来的所有错误。

 


新一代变异检测工具

 

在变异检测软件这一块儿,目前最常用的GATK流程以Illumina测序数据为样本开发调试,多年以来一直被业界认为是变异检测的金标准。然而,GATK并没有官方正式支持MGI的DNBSEQ,业界也在思考是否有替代方案。一个最有希望的方向是通过机器学习来确认新的测序平台的系统偏差,从而纠正变异检测的错误。在本文里,作者测试了两个基于机器学习/深度学习原理的变异检测工具:Sentieon DNAscopeGoogle DeepVariant。作者使用这两个工具训练了专门适配DNBSEQ的过滤器模型,展现了机器学习方法相比GATK在准确性上的巨大提升。

 

准确度展示


本文选用了标准品NA12878的DNA,经过了MGIEasy PCR或PCR-free建库试剂盒处理,在MGISEQ-2000上进行测序,原始下机数据深度大约46X,被降采样到30X及多个更低深度进行后续分析。分析流程包括了过滤,BWA比对,后续分别通过GATK (v3.3),DeepVariant (v0.7.0),以及DNAscope (v201808.01 & 201808.05)进行分析。生成的VCF文件和真集比对计算代表准确度的F-score。

 

首先我们可以在下图中的看到,在PCR-Free建库30X深度下,得益于完全PCR-Free过程,无论是SNP还是Indel都呈现了更好的准确度,全面超过了PCR建库30X深度的准确度。三种分析软件比对,DNAscope在PCR SNP, PCR-free SNP & Indel这三项中给出了最高准确度,DeepVariant在PCR Indel这一项给出了最高的准确度。GATK相比之下表现逊色很多,假阳性和假阴性的变异数量都增加了一倍左右。

 


 

另外,数据的可重复性一直都是用户追求的关键性能之一。本文中PCR-Free组样本的建库和测序包括了3个重复,分别使用DeepVariant, DNAscope和GATK进行分析,统计变异检出的一致性。DNAscope表现出最佳的一致性,高达96.1%的SNP和89.1%的Indel可以同时在三个样本中被检出,DeepVariant的一致性紧跟DNAscope,远超GATK。这表明新一代机器学习软件在保证结果准确度的前提下可以有效处理上游建库测序所引入的系统误差。

 

 

低深度测序节约成本

 

全基因组测序由于测序数据量巨大导致测序成本较高,然而事实上相当一部分冗余的测序数据都是用来应对流程中各个步骤引入的错误和不均一覆盖度的问题,为压缩成本提供了空间。从下图的结果可以看到,”全流程PCR-free ”建库测序结合机器学习变异检测,在15X测序深度就可以实现超过传统PCR+GATK分析流程在30X测序深度的准确度(Overall F-score 99.26% vs 99.08%,根据文中数据计算),展现了其在成本节省上的巨大潜力。

 

 


MGI vs Illumina,多平台比对

 

最后,文章使用DNAscope的MGI适配模型以及Illumina适配模型分析对比了来自MGI或者Illumina的测序样本,并首次展示了DNBSEQ-T7测序仪的指标数据。

 


 

表格中前4个样本是MGIEesy PCR-Free建库分别在MGI的T7, 2000 和Illumina Novaseq上测序,后3个样本是完全Illumina建库加测序。首先可以看到的是,所有的Illumina测序结果的重复率(Duplicate Rate)都在10%以上,而MGI测序仪将这个值降低到1%左右。DNBSEQ-T7的重复率略高于MGISEQ-2000,可能是和较低的DNA起始量相关。

 

从变异检测结果来看,MGI和Illumina在SNP准确度上表现相当,在Indel方面MGI更胜一筹,尤其是还在研发阶段的“PCR-Free research library”,Indel的错误数(FP+FN)仅为Illumina Novaseq的一半(3505 vs 7129)。值得注意的是,DNBSEQ-T7以更低的DNA起始量(250ng),达到了Illumina xTen和Novaseq的水平,降低了样本要求,拓展了临床与科研应用范围。


 

总结

 

“MGIEasy PCR-Free建库+DNASEQ RCA测序+DNAscope/DeepVariant软件+MGI专用机器学习模型”整体流程提升了变异检测的准确度,降低了由PCR引入的错误,缩短了流程时间,也为降低测序深度压缩成本提供了基础。

 


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/54666
 
568 次点击