NGS流程简介
二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度,有力推动了相关研究。目前,NGS已广泛应用于全基因组测序、外显子测序、表观遗传学修饰等重要的生物学问题。
本示例中NGS流程基于医疗智能体(EIHealth)平台搭建,流程以fastq格式数据作为输入,对碱基的质量信息进行评估,判断可靠程度,通过质控、比对、变异检测等步骤,最终输出包含样本SNP、INDEL的VCF文件。
该案例介绍NGS的搭建步骤,涵盖镜像、应用、流程制作方法。用户也可以使用“资产市场”提供的已经搭建好的“Variant Calling Based On NGS”流程。该案例比“资产市场”流程多出VCF文件进行质控步骤。
功能介绍
- 测序数据质量的总体评估
评估测序的Reads数目,测序Base数,测序深度等。
- 低质量Reads过滤
过滤低质量的测序Reads,得到Clean Reads。
- 基因组比对
将Clean Reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。
- 基因组变异检测
基于上述比对得到的bam文件,通过GATK4做Variant Calling,输出变异检测结果。
- 基因组变异检测质控
通过VariantQC对vcf进行质量控制,输出变异数目,变异类型统计等指标。
流程优势
- 使用Unix管道技术连接比对和排序步骤,以缩短bwa和samtools的存放、读取、删除中间文件的时间。
- 流程针对GATK4中的限速步骤,进行了系统的优化加速。流程从contig-file中提取contig,根据contig下发对应的任务,并依据不同任务,指定并行下发的任务数,以降低流程整体的运行时间。
流程执行信息
NGS流程由fastp、bwa-mem、picard-insertsize、qualimap-bamqc、gatk-markduplicates、gatk-bqsr、gatk-applybqsr、gatk-haplotypecaller、gatk-mergevcfs和discvrseq-variantqc应用构成。NGS流程执行步骤如表1所示。
步骤 |
描述 |
---|---|
Read Quality |
对测序得到的fastq数据进行质控。 |
Mapping and Sort and index |
将质控之后得到的Clean Reads比对到参考基因组上。 |
Insert Size Estimation |
针对构建Index后的bam文件,统计测序数据的Insert size的分布。 |
Bam QC |
评估比对得到的bam文件的质量。 |
GATK MarkDuplicates |
标记比对bam文件中的重复Reads。 |
gatk BaseRecalibrator |
基于比对bam文件评估矫正参数。 |
gatk ApplyBQSR |
基于比对bam文件进行矫正。 |
gatk HaplotypeCaller |
基于比对和矫正之后的bam文件进行Variant Calling的工作。 |
gatk MergeVcfs |
合并分bin变异检测的VCF文件。 |
Variant QC |
针对输出的VCF文件进行质控。 |