入门必读
基于华为云整体产品规划,基因领域将统一由EIHealth为入口承接,后续GCS会考虑逐渐下线。详见最新动态。
基因容器(GeneContainer Service,简称GCS)提供云端基因测序解决方案,支持DNA、RNA、液态活检等主流生物基因测序场景。
基因容器服务对GATK 4.0官方所推荐的最佳实践流程进行封装,让您能快速基于GATK最佳实践流程完成原数据分析。该流程为Broad Institute官方推荐流程,用于全基因组测序比对、去重、碱基校正以及突变检测,关于该流程的详细描述请参见Broad Institute官方文档。
本文旨在帮助您了解基因容器的基本知识,解答您在使用基因容器中可能遇到的问题,帮助您快速使用基因容器服务开始您的基因测序数据分析之旅。
文档导读
基因容器的计算环境可以使用云容器实例(Cloud Container Instance,CCI)、云容器引擎(CloudContainer Engine,CCE)、Cromwell引擎和病毒基因分析平台。
- 云容器实例,不需要关注底层计算资源的创建与维护,通过简单的配置即可快速部署容器负载。如果基因分析流程成熟稳定,建议您使用云容器实例环境,可以省去对资源的关注。基于云容器实例的快速入门,请参见基于CCI执行gcs-grammar流程。
- 云容器引擎,您需要创建管理集群及节点资源。云容器引擎使与云容器实例不同点在于环境的底层资源不同,其余基本相同。
- Cromwell引擎,Cromwell 是 Broad Institute 开发的工作流管理系统。通过 Cromwell 可以将 WDL(Workflow Description Language) 描述的 workflow 运行在CCI容器中。详细使用方法请参见Cromwell引擎使用指南。
- 病毒基因分析平台,使用基因容器分析病毒基因组,实时反馈分析结果,简单易用,请参见病毒基因组分析平台入门。
基本概念
- 镜像
容器镜像是一个应用的快照。例如,一个容器镜像可以包含一个完整的Ubuntu操作系统环境,里面仅安装了用户需要的应用程序及其依赖文件。容器镜像用于创建容器,您也可以下载其他人已经创建好的镜像来使用。
- 容器
容器是对软件和其依赖环境的标准化打包,可以实现应用层面的隔离,并且可以运行在主流的操作系统上。
镜像类似于操作系统,而容器类似于虚拟机。它可以被启动、开始、停止、删除等操作,每个容器都是相互隔离的
- 流程
基因测序流程包含测序过程所需工具的执行先后信息以及数据输入输出等定义。流程由至少一个工具组成。流程中的各个工具由其前后顺序关系形成数据流,前序工具为后序工具提供输入。
- 流程描述文件
基因容器提供特定的描述语言,用于控制流程的详细步骤。基因容器的流程描述文件的编写请参见流程语法参考。
- 工具
工具是生物信息软件的镜像封装,工具既可以编排入流程串联使用,也可以独立使用,同时用户可以制作自定义工具,这些工具都存放在工具仓库中。
- OBS
对象存储服务(Object Storage Service,OBS)是华为云中基于对象的存储服务,可以为您提供海量、安全、高可靠、低成本的数据存储能力。
- 桶
桶(Bucket)是OBS中存储对象的容器。对象存储提供了基于桶和对象的扁平化存储方式,桶中的所有对象都处于同一逻辑层级,去除了文件系统中的多层级树形目录结构。
对象存储服务设置有三类存储类别,分别为:标准存储、低频访问存储、归档存储,从而满足客户业务对存储性能、成本的不同诉求。创建桶时可以指定桶的存储类别。桶的存储类别可以修改。
- SFS
弹性文件服务(Scalable File Service,SFS)为您的弹性云服务器(Elastic Cloud Server,ECS)提供一个完全托管的共享文件存储,能够弹性伸缩至PB规模,具备可扩展的性能,为海量数据、高带宽型应用提供有力支持。