执行分析作业
创建分析作业
- 登录医疗智能体平台,进入项目并选择“启动作业”。 页签,单击NGS流程行的
- 请参考配置输入和依赖数据章节,设置NGS流程数输入数据。
- 在新建作业页面,填写作业信息。
- 基本信息:包含作业名称、标签、描述。
- 输出路径:存放输出结果的路径,格式以/开头。例如项目中的output文件夹,输出路径可设置为/output。
- 优先级:运行优先级,分为0~9级,优先级高的作业会被优先执行(该特性规划中,暂未上线)。
- 计算节点标签:作业会调度到含有相应标签的计算节点上。
当应用也配置了标签,如果应用和作业的计算节点标签在同一计算节点上,则应用调度至该计算节点上;应用和它的作业,不管节点标签是否一致,都会被调度到应用的节点标签所对应的计算节点上。
如果设置了不存在的计算节点标签,作业会进入等待,直至配置了相应的标签。
- 超时时间:作业运行时间超过设置时间时,认为超时,默认1440分钟,最大可设置为144000分钟,即作业运行至多100天。
- 加速类型:
- 单击“确定”,保存作业信息。
配置输入和依赖数据
NGS流程中涉及的输入、输出和依赖数据如表1所示。配置数据前,请先参考上传数据,上传原始Fastq文件和依赖数据。
如果在创建应用时打开了“并发”开关,可以设置多个参数值,批量执行作业。
数据上传完成后,在流程设计器页面,分别单击应用参数左侧图标,设置输入和依赖数据。NGS流程中输入输出参数说明如表2所示。
类别 |
类型 |
说明 |
---|---|---|
输入 |
Fastq |
输入基于二代测序得到的原始Fastq文件,支持来源于多个barcode和路径的输入。 |
依赖 |
Reference Genome |
输入的参考基因组序列,已经通过bwa构建了index。 |
依赖 |
Variant Sets |
GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 |
输出 |
FastQC Report |
原始测序数据的质控报告,以HTML文件形式展示。 |
输出 |
BamQC Report |
测序比对数据的质量控制报告,以HTML文件的形式展示。 |
输出 |
VCF |
样本的突变信息,包含有SNP和INDEL信息,以VCF的格式存储。 |
输出 |
VCF Report |
样本突变信息的质量控制报告,以HTML文件的形式展示。 |
应用名称 |
参数 |
名称 |
类型 |
说明 |
---|---|---|---|---|
fastp |
输入参数 |
fastq-file1 |
file |
二代测序fastq的Read1文件。 |
fastq-file2 |
file |
二代测序fastq的Read2文件。 |
||
输出参数 |
fq-file1 |
file |
Read1过滤之后输出fq.gz文件。 |
|
fq-file2 |
file |
Read2过滤之后输出fq.gz文件 |
||
json-file |
file |
以JSON文件的格式输出的质控报告。 |
||
html-file |
file |
以HTML的格式输出易于阅读的质控报告。 |
||
bwa-mem |
输入参数 |
fq-file1 |
file |
测序得到的fastq1文件。 |
fa-file2 |
file |
测序得到的fastq2文件。 |
||
ref-file |
file |
参考基因组序列。 |
||
seq-platform |
string |
测序平台,如MGI、Illumina。 |
||
sample-id |
string |
文件前缀,如NA12878。 |
||
输出参数 |
sorted-bam |
file |
比对和排序之后得到的bam文件。 |
|
flagstat-file |
file |
基于bam做统计。 |
||
qualimap-bamqc |
输入参数 |
bam-file |
file |
输入已经排序好的bam文件。 |
输出参数 |
out-dir |
directory |
质控报告的输出目录。 |
|
picard-insertsize |
输入参数 |
bam-file |
file |
经过比对和排序之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
输出参数 |
insertsize-txt |
file |
输出的insert size分布的文本文件。 |
|
insertsize-pdf |
file |
输出的insert size分布的pdf文件。 |
||
gatk-markduplicates |
输入参数 |
bam-file |
file |
输入比对之后经过sort的bam文件。 |
输出参数 |
out-dir |
directory |
经过gatk-markduplicates处理之后得到的bam文件。 |
|
matrics-file |
file |
质控报告文件。 |
||
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
||
gatk-bqsr |
输入参数 |
ref-file |
file |
参考基因组序列。 |
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
||
know-site1 |
file |
已知变异位点对应的vcf文件(其一)。 |
||
know-site2 |
file |
已知变异位点对应的vcf文件(其二)。 |
||
know-site3 |
file |
已知变异位点对应的vcf文件(其三)。 |
||
输出参数 |
recal-table |
file |
输出经过BQSR评估得到的参数文件。 |
|
gatk-applybqsr |
输入参数 |
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
recal-table |
file |
通过 GATK-BQSR得到参数评估文件。 |
||
输出参数 |
bqsr-bam |
file |
经过BQSR校正的bam文件。 |
|
gatk-haplotypecaller |
输入参数 |
bqsr-bam |
file |
经过gatk-applybqsr处理之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
contig-file |
file |
与参考基因组对应的contigs文件,包含contigs清单。 |
||
输出参数 |
out-dir |
directory |
输出的Variant Calling的vcf文件。 |
|
gatk-mergevcfs |
输入参数 |
in-dir |
directory |
分interval进行Variant calling之后得到的vcf的list文件。 |
输出参数 |
vcf-file |
file |
输出合并之后的Variant Calling的vcf文件。 |
|
discvrseq-variantqc |
输入参数 |
ref-file |
file |
参考基因组序列。 |
variants-file |
file |
变异检测软件(gatk4)生成的变异文件(vcf file)。 |
||
输出参数 |
json-file |
file |
以JSON文件的格式输出的质控报告。 |
|
html-file |
file |
以HTML文件的格式输出的质控报告。 |
执行分析作业
单击流程设计器上方“新建作业”,弹出启动作业对话框,单击“确定”,即可运行。
查看分析结果
作业运行后,页面将跳转至
页面。您可以在该页面,查看作业的执行状态。单击作业名称即可进入作业详情页,查看运行进展和执行结果。单击“概述”列按钮,在展开的信息栏中查看作业的输入&输出、节点参数、应用,单击输入输出参数的路径,即可跳转至数据管理页面,查看相应数据。在作业的子任务中可以查看日志、事件。如果并发执行了多个作业,则会产生多个子任务。