更新时间:2024-08-08 GMT+08:00
分享

使用Variant Calling Based On NGS流程

二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序表观遗传学等领域。

该流程以NGS得到的fastq作为输入,通过质控,比对,得到比对后的bam文件,及对fastq和bam文件的质控报告。

NGS流程由fastp、bwa-mem、picard-insertsize、bamqc应用构成,各应用说明如表1所示。

表1 应用说明

应用名称

说明

fastp

对测序得到的fastq数据进行质控。

bwa-mem

将质控之后得到的Clean Reads比对到参考基因组上。

picard-insertsize

针对构建Index后的bam文件,统计测序数据的Insert size的分布。

bamqc

评估比对得到的bam文件的质量。

使用NGS的详细步骤如下所示:

步骤1:订阅流程

使用NGS流程前,需要您在资产市场中订阅该流程。

  1. “资产市场”中查找“Variant Calling Based On NGS”流程。
  2. 单击界面右侧“订阅”图标,订阅该流程。

    订阅的流程将显示在“项目管理 > 工具”页面的流程列表中。

步骤2:上传待分析数据

您在使用NGS流程前,请先上传待分析的数据,上传数据方法请参见数据管理。数据要求是成对的双端测序样本,即您需要上传两个样本数据文件,例如:xxx.R1.fastq.gz和xxx.R2.fastq.gz。

步骤3:创建分析作业

  1. 单击项目名称,进入“项目管理”页面,并选择“工具”页签。
  2. 单击ngs“操作”“启动作业”,在弹出的新建作业页面,填写作业信息。“作业名称”“标签”、和“描述”,设置“输出路径”“优先级”“计算节点标签”“超时时间”“加速类型”
    • 基本信息:包含作业名称、标签、描述。
    • 输出路径:存放输出结果的路径,格式以/开头。例如项目中的output文件夹,输出路径可设置为/output。

      不填写路径时,默认以“作业名-UUID”格式生成输出路径。

    • 优先级:运行优先级,分为0~9级,优先级高的作业会被优先执行。默认值为0。

      如果当前投递的IO加速的作业,超过sfs总的作业配额数, 那么超出部分的作业会按照投递时间顺序,从最新投递的向前执行,不会按照优先级进行运行。

    • 计算节点标签:作业会调度到含有相应标签的计算节点上。

      当应用也配置了标签,如果应用和作业的计算节点标签在同一计算节点上,则应用调度至该计算节点上;应用和它的作业,不管节点标签是否一致,都会被调度到应用的节点标签所对应的计算节点上。

      如果设置了不存在的计算节点标签,作业会进入等待,直至配置了相应的标签。

    • 超时时间:作业运行时间超过设置时间时,认为超时,默认1440分钟,最大可设置为144000分钟,即作业运行至多100天。
    • 加速类型:
      加速效率:IO加速>本地盘加速>无
      • 无:作业运行于OBS中,不使用加速。
      • IO加速:IO加速使用弹性文件服务(SFS)提供高性能的数据读写,作业运行时,会将非最终结果的数据存储在SFS中用以提高任务运行效率,作业执行完成后会清理释放SFS空间。对于涉及频繁读写场景的任务建议开启IO加速,开启前需要先购买性能加速
      • 本地盘加速:使用计算节点的本地盘进行加速。使用本地盘加速时,需保证购买的计算节点带有“数据盘”。OBS桶中的数据不支持本地盘加速,使用OBS桶中数据用于本地盘加速,可能会导致作业运行失败。
        图1 “OBS”标签代表数据引用来源为OBS桶
  3. 作业信息填写完成后,单击“确定”,进入流程设计器页面。分别单击输入参数图标,设置输入数据。
    表2 参数说明

    应用名称

    参数

    名称

    类型

    说明

    fastp

    输入参数

    fastq-file1

    file

    二代测序fastq的Read1文件。

    fastq-file2

    file

    二代测序fastq的Read2文件。

    输出参数

    fq-file1

    file

    Read1过滤之后输出fq.gz文件。

    fq-file2

    file

    Read2过滤之后输出fq.gz文件

    json-file

    file

    以JSON文件的格式输出的质控报告。

    html-file

    file

    以HTML的格式输出易于阅读的质控报告。

    bwa-mem

    输入参数

    fq-file1

    file

    测序得到的fastq1文件。

    fq-file2

    file

    测序得到的fastq2文件。

    ref-dir

    directory

    参考基因组序列。

    seq-platform

    string

    测序平台,如MGI、Illumina。

    sample-id

    string

    文件前缀,如NA12878。

    输出参数

    sorted-bam

    file

    比对和排序之后得到的bam文件。

    flagstat-file

    file

    基于bam做统计。

    qualimap-bamqc

    输入参数

    bam-file

    file

    输入已经排序好的bam文件。

    输出参数

    out-dir

    directory

    质控报告的输出目录。

    picard-insertsize

    输入参数

    bam-file

    file

    经过比对和排序之后得到的bam文件。

    ref-dir

    directory

    参考基因组序列。

    输出参数

    insertsize-txt

    file

    输出的insert size分布的文本文件。

    insertsize-pdf

    file

    输出的insert size分布的pdf文件。

  4. 参数填写无误后,单击界面上方“启动作业”,运行作业。

步骤4:查看执行结果

  1. “项目管理”页面选择“作业”页签,单击创建的NGS作业名称,进入详情页,查看执行结果。
    图2 执行结果
  2. 作业运行完成后,单击应用进度条中的“输出参数”,可跳转至数据所在路径,获取运行结果数据。

相关文档