使用RNA-Seq Analysis Based on STAR流程
二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序表观遗传学等领域。
该流程以NGS得到的fastq作为输入,通过质控,比对等步骤,输出针对fastq的qc报告,输出STAR比对得到的bam文件。
RNA-Seq流程由fastqc、trimmomatic、star应用构成,各应用说明如表1所示。
应用名称 |
说明 |
---|---|
fastqc |
对测序得到的fastq数据进行质控。 |
trimmomatic |
使用trimmomatic工具去掉测序接头,得到去接头后fastq格式的reads。 |
star |
使用STAR比对工具将去接头后的reads比对到参考基因组,得到bam文件和多种格式的统计报告。 |
使用RNA-Seq流程的详细步骤如下所示:
步骤1:订阅流程
使用RNA-Seq流程前,需要您在资产市场中订阅该流程。
- 在“资产市场”中查找“RNA-Seq Analysis Based on STAR”流程。
- 单击界面右侧“订阅”图标,订阅该流程。
订阅的流程将显示在“项目管理 > 工具”页面的流程列表中。
步骤3:创建分析作业
- 单击项目名称,进入“项目管理”页面,并选择“工具”页签。
- 在“RNA-Seq Analysis Based on STAR”流程操作列,单击“启动作业”,在弹出的新建作业页面,填写作业信息。“作业名称”、“标签”、和“描述”,设置“输出路径”、“优先级”、“计算节点标签”、“超时时间”和“加速类型”。
- 基本信息:包含作业名称、标签、描述。
- 输出路径:存放输出结果的路径,格式以/开头。例如项目中的output文件夹,输出路径可设置为/output。
- 优先级:运行优先级,分为0~9级,优先级高的作业会被优先执行。默认值为0。
如果当前投递的IO加速的作业,超过sfs总的作业配额数, 那么超出部分的作业会按照投递时间顺序,从最新投递的向前执行,不会按照优先级进行运行。
- 计算节点标签:作业会调度到含有相应标签的计算节点上。
当应用也配置了标签,如果应用和作业的计算节点标签在同一计算节点上,则应用调度至该计算节点上;应用和它的作业,不管节点标签是否一致,都会被调度到应用的节点标签所对应的计算节点上。
如果设置了不存在的计算节点标签,作业会进入等待,直至配置了相应的标签。
- 超时时间:作业运行时间超过设置时间时,认为超时,默认1440分钟,最大可设置为144000分钟,即作业运行至多100天。
- 加速类型:
- 作业信息填写完成后,单击“确定”,进入流程设计器页面。分别单击输入参数图标,设置输入数据。
表2 参数说明 应用名称
参数
名称
类型
说明
fastqc
输入参数
in-dir
directory
fastq目录,包含待分析的fastq格式的文件。
fastq-extend
string
fastq文件后缀<extend>,适配不同的后缀。
输出参数
out-dir
directory
测序比对数据的质量控制报告的输出目录。
trimmomatic
输入参数
fastq-extend
string
fastq文件后缀<extend>,适配不同的后缀。
in-dir
directory
fastq目录,包含待分析的fastq格式的文件。
para-str
string
对扩展参数的支持,可以不填。
threads
string
运行期线程数。
sample-name
string
sample name清单。
输出参数
out-dir
directory
trimmomatic去接头后的fastq输出目录。
star
输入参数
in-dir
directory
fastq目录,包含待分析的fastq格式的文件。
fastq-extend
string
fastq文件后缀<extend>,适配不同的后缀。
read-cmd
string
读取输入文件时使用的命令,如读取.gz文件使用zcat,文本文件使用cat。
para-str
string
对扩展参数的支持,可以不填。
genome-dir
directory
输入的参考基因组序列,已经使用STAR构建了index。
sample-name
string
sample name清单。
输出参数
out-dir
directory
STAR比对结果所在文件夹。
- 参数填写无误后,单击界面上方“启动作业”,运行作业。