更新时间:2024-11-05 GMT+08:00
分享

NGS流程简介

二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅地提高了测序速度,有力推动了相关研究。目前,NGS已广泛应用于全基因组测序、外显子测序、表观遗传学修饰等重要的生物学问题。

本示例中NGS流程基于医疗智能体(EIHealth)平台搭建,流程以fastq格式数据作为输入,对碱基的质量信息进行评估,判断可靠程度,通过质控、比对、变异检测等步骤,最终输出包含样本SNP、INDEL的VCF文件。

该案例介绍NGS的搭建步骤,涵盖镜像、应用、流程制作方法。用户也可以使用“资产市场”提供的已经搭建好的“Variant Calling Based On NGS”流程。该案例比“资产市场”流程多出VCF文件进行质控步骤。

功能介绍

  • 测序数据质量的总体评估

    评估测序的Reads数目,测序Base数,测序深度等。

  • 低质量Reads过滤

    过滤低质量的测序Reads,得到Clean Reads。

  • 基因组比对

    将Clean Reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。

  • 基因组变异检测

    基于上述比对得到的bam文件,通过GATK4做Variant Calling,输出变异检测结果。

  • 基因组变异检测质控

    通过VariantQC对vcf进行质量控制,输出变异数目,变异类型统计等指标。

流程优势

  • 使用Unix管道技术连接比对和排序步骤,以缩短bwa和samtools的存放、读取、删除中间文件的时间。
  • 流程针对GATK4中的限速步骤,进行了系统的优化加速。流程从contig-file中提取contig,根据contig下发对应的任务,并依据不同任务,指定并行下发的任务数,以降低流程整体的运行时间。

流程执行信息

NGS流程由fastp、bwa-mem、picard-insertsize、qualimap-bamqc、gatk-markduplicates、gatk-bqsr、gatk-applybqsr、gatk-haplotypecaller、gatk-mergevcfs和discvrseq-variantqc应用构成。NGS流程执行步骤如表1所示。

表1 NGS执行步骤

步骤

描述

Read Quality

对测序得到的fastq数据进行质控。

Mapping and Sort and index

将质控之后得到的Clean Reads比对到参考基因组上。

Insert Size Estimation

针对构建Index后的bam文件,统计测序数据的Insert size的分布。

Bam QC

评估比对得到的bam文件的质量。

GATK MarkDuplicates

标记比对bam文件中的重复Reads。

gatk BaseRecalibrator

基于比对bam文件评估矫正参数。

gatk ApplyBQSR

基于比对bam文件进行矫正。

gatk HaplotypeCaller

基于比对和矫正之后的bam文件进行Variant Calling的工作。

gatk MergeVcfs

合并分bin变异检测的VCF文件。

Variant QC

针对输出的VCF文件进行质控。

图1 NGS执行步骤
图2 搭建步骤

相关文档