文档首页 > > 快速入门> 入门必读

入门必读

分享
更新时间: 2019/09/04 GMT+08:00

基因容器(GeneContainer Service,简称GCS)提供云端基因测序解决方案,支持DNA、RNA、液态活检等主流生物基因测序场景。

基因容器服务对GATK 4.0官方所推荐的最佳实践流程进行封装,让您能快速基于GATK最佳实践流程完成原数据分析。该流程为Broad Institute官方推荐流程,用于全基因组测序比对、去重、碱基校正以及突变检测,关于该流程的详细描述请参见Broad Institute官方文档。

本文旨在帮助您了解基因容器的基本知识,解答您在使用基因容器中可能遇到的问题,帮助您快速使用基因容器服务开始您的基因测序数据分析之旅。

文档导读

基因容器的计算环境可以使用云容器实例(Cloud Container Instance,CCI)或是云容器引擎(CloudContainer Engine,CCE)。

  • 云容器实例,不需要关注底层计算资源的创建与维护,通过简单的配置即可快速部署容器负载。如果基因测试流程成熟稳定,建议您使用云容器实例环境,可以省去对资源的关注。基于云容器实例的快速入门,请参见基于CCI执行GATK4最佳实践流程
  • 云容器引擎,您需要创建管理集群及节点资源。基于云容器引擎的快速入门,请参见基于CCE执行GATK4最佳实践流程

基本概念

  • 镜像

    Docker镜像是一个模板。例如,一个Docker镜像可以包含一个完整的Ubuntu操作系统环境,里面仅安装了用户需要的应用程序及其依赖文件。Docker镜像用于创建Docker容器。Docker本身提供了一个简单的机制来创建新的镜像或者更新已有镜像,您也可以下载其他人已经创建好的镜像来使用。

  • 容器

    容器是对软件和其依赖环境的标准化打包,可以实现应用层面的隔离,并且可以运行在主流的操作系统上。

    镜像类似于操作系统,而容器类似于虚拟机。它可以被启动、开始、停止、删除等操作,每个容器都是相互隔离的

  • 流程

    基因测序流程包含测序过程所需工具的执行先后信息以及数据输入输出等定义。流程由至少一个工具组成。流程中的各个工具由其前后顺序关系形成数据流,前序工具为后序工具提供输入。

  • 流程描述文件

    基因容器提供特定的描述语言,用于控制流程的详细步骤。基因容器的流程描述文件的编写请参见流程语法参考

  • 工具

    工具是生物信息软件的镜像封装,工具既可以编排入流程串联使用,也可以独立使用,基因容器提供了大量的公共工具,同时用户可以制作自定义工具,这些工具都存放在工具仓库中。

  • OBS

    对象存储服务(Object Storage Service,OBS)是华为云中基于对象的存储服务,可以为您提供海量、安全、高可靠、低成本的数据存储能力。

  • 桶(Bucket)是OBS中存储对象的容器。对象存储提供了基于桶和对象的扁平化存储方式,桶中的所有对象都处于同一逻辑层级,去除了文件系统中的多层级树形目录结构。

    对象存储服务设置有三类存储类别,分别为:标准存储、低频访问存储、归档存储,从而满足客户业务对存储性能、成本的不同诉求。创建桶时可以指定桶的存储类别。桶的存储类别可以修改。

  • SFS

    弹性文件服务(Scalable File Service,SFS)为您的弹性云服务器(Elastic Cloud Server,ECS)提供一个完全托管的共享文件存储,能够弹性伸缩至PB规模,具备可扩展的性能,为海量数据、高带宽型应用提供有力支持。

常见问题

  1. 我不懂容器技术,可以使用基因容器服务吗?

    基因容器已将容器技术实现做了封装,提供了简单易用的控制台界面,您可以基于基因容器提供的控制台快速开始基因测序分析,无需额外了解容器或是云计算等相关技术。

  2. 已有测序流程和工具迁移到基因容器服务上,方便吗?

    方便。基因容器提供了工具仓库,用于存储自有工具,此外,您可基于基因容器提供的图形化编辑器,通过界面上拖拽的方式,快速创建测试流程,从而将已有测试流程迁移至基因容器服务上。

  3. 基因容器都支持哪些测序工具?

    基因容器提供公共工具,您可以直接使用,当前已支持的公共工具有:

    • happy:Illumina 发布的验证 SNP/Indel 检测算法工具,可以根据算法的结果,对比 NA12878 等标准数据集,计算 SNP/Indel 检测算法的准确率、灵敏度、F1 值等指标。详见https://github.com/Illumina/hap.py
    • deepvariant:详情说明请参见https://github.com/google/deepvariant/
    • dli-gatk:dli-gatk是由数据湖探索服务(DLI)提供的基于GATK(Genome Analysis TooL Kit)的变异检测工具,可以提供全托管式的突变检测流程。
    • gatk:Genome Analysis Tool Kit是由哈佛大学、麻省理工学院联合创建的 Broad Institute 开发的一套变异检测软件,可以实现碱基质量的误差分析与校正,突变区域的检测以及过滤等功能。
    • busybox:BusyBox包含了一些简单的工具,例如ls、cat和echo等等,还包含了一些更大、更复杂的工具,例grep、find、mount以及telnet。
    • zsplit:对原始测序fastq文件,拆分为若干个子文件。
    • bwa:Burrows Wheeler Aligner与 Samtools, 是经典的基因组比对应用软件,可以用来建立参考基因组的比对索引,继而基于索引进行基因组的快速比对,并进行 sam、bam 格式的转换、序列排序等操作。

    此外,您可以上传私有工具到“工具仓库”中,使用您自定义的工具。

  4. 基因容器有哪些已有流程可以使用?

    基因容器当前已有流程为GATK4最佳实践流程、基于分布式加速的GATK4.0最佳实践流程和deepvariant示例流程,如图1 示例流程,您可以基于这些流程快速完成数据分析。

    图1 示例流程
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区