本文导读

展开导读

文档首页/ 医疗智能体 EIHealth/ 用户指南/ 用户指南（基因平台）/ 资产市场/ 使用RNA-Seq Analysis Based on STAR流程

使用RNA-Seq Analysis Based on STAR流程

更新时间：2024-08-08 GMT+08:00

二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时，大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序表观遗传学等领域。

该流程以NGS得到的fastq作为输入，通过质控，比对等步骤，输出针对fastq的qc报告，输出STAR比对得到的bam文件。

RNA-Seq流程由fastqc、trimmomatic、star应用构成，各应用说明如表1所示。

表1 应用说明
应用名称	说明
fastqc	对测序得到的fastq数据进行质控。
trimmomatic	使用trimmomatic工具去掉测序接头，得到去接头后fastq格式的reads。
star	使用STAR比对工具将去接头后的reads比对到参考基因组，得到bam文件和多种格式的统计报告。

使用RNA-Seq流程的详细步骤如下所示：

步骤1：订阅流程
步骤2：上传待分析数据
步骤3：创建分析作业
步骤4：查看执行结果

步骤1：订阅流程

使用RNA-Seq流程前，需要您在资产市场中订阅该流程。

在“资产市场”中查找“RNA-Seq Analysis Based on STAR”流程。
单击界面右侧“订阅”图标，订阅该流程。
订阅的流程将显示在“项目管理 > 工具”页面的流程列表中。

步骤2：上传待分析数据

您在使用RNA-Seq流程前，请先上传待分析的数据，上传数据方法请参见数据管理。

步骤3：创建分析作业

单击项目名称，进入“项目管理”页面，并选择“工具”页签。
在“RNA-Seq Analysis Based on STAR”流程操作列，单击“启动作业”，在弹出的新建作业页面，填写作业信息。“作业名称”、“标签”、和“描述”，设置“输出路径”、“优先级”、“计算节点标签”、“超时时间”和“加速类型”。
- 基本信息：包含作业名称、标签、描述。
- 输出路径：存放输出结果的路径，格式以/开头。例如项目中的output文件夹，输出路径可设置为/output。
  不填写路径时，默认以“作业名-UUID”格式生成输出路径。
- 优先级：运行优先级，分为0~9级，优先级高的作业会被优先执行。默认值为0。
  说明：
  
  如果当前投递的IO加速的作业，超过sfs总的作业配额数，那么超出部分的作业会按照投递时间顺序，从最新投递的向前执行，不会按照优先级进行运行。
- 计算节点标签：作业会调度到含有相应标签的计算节点上。
  当应用也配置了标签，如果应用和作业的计算节点标签在同一计算节点上，则应用调度至该计算节点上；应用和它的作业，不管节点标签是否一致，都会被调度到应用的节点标签所对应的计算节点上。
  
  如果设置了不存在的计算节点标签，作业会进入等待，直至配置了相应的标签。
- 超时时间：作业运行时间超过设置时间时，认为超时，默认1440分钟，最大可设置为144000分钟，即作业运行至多100天。
- 加速类型：
  加速效率：IO加速>本地盘加速>无
  - 无：作业运行于OBS中，不使用加速。
  - IO加速：IO加速使用弹性文件服务（SFS）提供高性能的数据读写，作业运行时，会将非最终结果的数据存储在SFS中用以提高任务运行效率，作业执行完成后会清理释放SFS空间。对于涉及频繁读写场景的任务建议开启IO加速，开启前需要先购买性能加速。
  - 本地盘加速：使用计算节点的本地盘进行加速。使用本地盘加速时，需保证购买的计算节点带有“数据盘”。OBS桶中的数据不支持本地盘加速，使用OBS桶中数据用于本地盘加速，可能会导致作业运行失败。
    图1 “OBS”标签代表数据引用来源为OBS桶

作业信息填写完成后，单击“确定”，进入流程设计器页面。分别单击输入参数

图标，设置输入数据。

表2 参数说明
应用名称	参数	名称	类型	说明
fastqc	输入参数	in-dir	directory	fastq目录，包含待分析的fastq格式的文件。
	输入参数	fastq-extend	string	fastq文件后缀<extend>，适配不同的后缀。
	输出参数	out-dir	directory	测序比对数据的质量控制报告的输出目录。
trimmomatic	输入参数	fastq-extend	string	fastq文件后缀<extend>，适配不同的后缀。
		in-dir	directory	fastq目录，包含待分析的fastq格式的文件。
		para-str	string	对扩展参数的支持，可以不填。
		threads	string	运行期线程数。
		sample-name	string	sample name清单。
	输出参数	out-dir	directory	trimmomatic去接头后的fastq输出目录。
star	输入参数	in-dir	directory	fastq目录，包含待分析的fastq格式的文件。
		fastq-extend	string	fastq文件后缀<extend>，适配不同的后缀。
		read-cmd	string	读取输入文件时使用的命令，如读取.gz文件使用zcat，文本文件使用cat。
		para-str	string	对扩展参数的支持，可以不填。
		genome-dir	directory	输入的参考基因组序列，已经使用STAR构建了index。
		sample-name	string	sample name清单。
	输出参数	out-dir	directory	STAR比对结果所在文件夹。

参数填写无误后，单击界面上方“启动作业”，运行作业。

步骤4：查看执行结果

在“项目管理”页面选择“作业”页签，单击创建的RNA-Seq作业名称，进入详情页，查看执行结果。
图2 执行结果
作业运行完成后，单击应用进度条中的“输出参数”，可跳转至数据所在路径，获取运行结果数据。

父主题： 资产市场

上一篇：使用Docking Summary流程

下一篇：使用AutoGenome镜像

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

使用RNA-Seq Analysis Based on STAR流程

步骤1：订阅流程

步骤2：上传待分析数据

步骤3：创建分析作业

步骤4：查看执行结果

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈