文档首页> > 快速入门> 执行GATK4最佳实践流程

执行GATK4最佳实践流程

分享
更新时间: 2019-02-19 16:02

生物样本经过测序仪分析后生成的数据即为原始数据,基因容器服务可基于您提供的原始数据通过测序流程分析得出测序结果。本章基于基因容器提供的原始数据演示如何使用基因容器创建并执行GATK4最佳实践流程。

创建环境

在所有操作前,请先完成环境准备,请单击“环境管理 > 创建环境”,根据界面提示填写参数。

“填写环境信息”界面,参数按如下填写。

  • 环境类型。

    基因容器的环境由云容器实例(以下简称CCI)和云容器引擎(以下简称CCE)提供。本示例使用的是CCE提供的环境。

  • 桶名称。

    桶可用于存储测序前后产生的数据,包括原始基因数据、流程执行中间数据及执行结果数据。

    • 如果您已有可用桶,在创建环境中,选择对应的桶即可。
    • 如果没有可用桶或是需要新建桶,请单击“创建桶”,基因容器将为您创建一个桶,规格如表1所示。
      表1 新建桶规格

      参数项

      参数值

      存储类别

      标准存储

      桶策略

      私有

      区域

      华北-北京一

  • 计算资源。

    本示例使用的计算资源是由云容器引擎CCE提供的集群。如果您对集群并不了解,请查看集群概述,了解集群概念、集群和虚拟私云及子网间关系、集群和节点的使用约束。

    说明:

    仅需要集群中添加一个规格为12C24G的虚拟机节点即可执行GATK4最佳实践流程,因此您已有的计算集群或是新建的集群符合此要求即可。

    • 如果您在CCE中已有可用集群,则在创建环境时,选择对应的集群做为计算资源即可。
      说明:

      为保证有足够的资源,请给基因环境规划独立的集群。

    • 如果您在CCE中没有可用的集群,或不想使用已有集群,请选择“新建资源”,并根据需求选择集群规格。

查看环境

创建环境预计需要花费6-10分钟时间,待环境创建完成,可以单击环境名称查看环境信息,可查看内容包括节点、控制节点、弹性伸缩、事件、存储等。

休眠环境

创建环境过程中用到的CCE、ECS、弹性IP等资源创建后即开始收费。如果您在某段时间内不使用GCS,请将环境休眠。休眠后环境将保留,按需付费的CCE控制节点将暂停收费,弹性云服务器ECS、绑定的弹性IP等资源仍需收费。

如需休眠,请单击“环境休眠”,在弹出的对话框中单击“确认”

数据上传

在已创建好的OBS桶里,请上传原始数据。原始数据可以上传您自己的数据,也可以使用基因容器提供的测试数据。

如果您上传自己的数据进行测序,请根据测序数据量调整节点规格。

如果使用测试数据,请下载如下两个数据,并上传至OBS桶内:

请在“数据存储”中为原始数据建立一个文件夹,并将所有的原始数据传至该文件夹内。如果使用测试数据,请选择“工具上传”,在OBS客户端中上传数据。

此处以上传基因容器提供的测试数据,存放在OBS桶中新建的“sample”目录下为例。上传完成后,在OBS Browser中查看如下结果,表示上传成功,其中“对象”列表示数据在OBS桶中的存放路径。

数据上传成功后,您可以进入“数据存储 > 私有数据”,选择上传的OBS桶,进入对应目录下查看已上传的测试数据。您还可以对测试数据进行下载和删除操作。

执行测序流程

基因容器提供了GATK4.0最佳实践流程,基于此流程可以对全基因组测序比对、去重、碱基校正以及突变检测。

该流程的执行顺序以及包含工具,可以通过单击”基因测序 > 示例流程 > gatk4-best-practices”查看流程详细信息。

执行测序流程请按如下步骤操作。

  1. 单击“开始测序”,开始配置流程参数。流程参数中包括“任务信息”、“配置”和“高级设置”。

    • 任务信息:包括任务名称、环境和存储选择。“高速共享存储”对应的是文件存储服务SFS,用于存储流程中间数据。如果您已有可用的SFS,请在下拉框中选择。如果没有SFS,请“新建存储”,并选择容量大小。
    • 配置:包括“通用配置”和“高级配置”,请根据界面提示信息完成参数配置。其中“通用配置”中的参数为必配项,需要根据您项目的实际情况修改。“高级配置”可以保留默认值,或根据您的需求修改。
    • 高级设置:可选项,包括“超时时间”、“批次名称”、“优先级”和“订阅消息通知”。

  2. 单击“下一步”,在“执行预览”页面,确认配置信息。
  3. 确认无误后,请单击“开始”即可完成流程的创建。

查看测序结果

测序流程执行时间需要数小时,具体时长与环境资源类型、环境资源大小、处理数据大小等相关。使用测试数据,预计要2小时,使用100G数据量需要5.5小时。

执行过程可以通过“执行结果”页面查看,可查看内容包括“任务进度图”“流程事件”“任务事件”“日志”“输入”“输出”“监控”等。

清理环境

如果不使用基因容器,请及时清理环境,以免产生费用。

如需清理环境,请单击 “清理环境”,在弹出的对话框中输入DELETE,环境清理后基因容器服务将不再使用该集群,集群还将为您保留。如需彻底删除该集群,请勾选 “删除环境所创建的集群”,然后单击 “确认”
图1 清理环境
如果您喜欢这篇文档,您还可以:

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区