更新时间:2022-06-15 GMT+08:00
分享

分析流程

基因分析流程包含分析过程所需工具的执行先后信息以及数据输入输出等定义。流程由至少一个工具组成。流程中的各个工具由其前后顺序关系形成数据流,前序工具为后序工具提供输入。

基因容器流程分为示例流程和自定义流程,当前已有的示例流程有gcs-grammar,其余可以通过“自定义流程”页面来创建。基于示例流程,您可以快速完成分析任务。您也可以使用自定义流程进行分析。

创建自定义流程

当需要使用除示例流程之外的流程执行分析时,首先要创建自定义流程。

  1. 登录GCS控制台,左侧导航栏中选择“基因分析>自定义流程”,在右侧页面中选择“GCS流程”“WDL流程”,单击“创建流程”。
  2. 创建流程有两种方式:

    • 上传本地流程模板

      流程模板是一种遵循GCS流程或WDL流程描述语法规范的文本文件,用于控制流程的详细步骤。基因容器的流程模板的编写请参见流程语法参考

      1. 设置流程信息。
        • 企业项目:

          该参数针对企业用户使用。如需使用该功能,请联系客服申请开通。

          企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理,默认项目为default。

          请从下拉列表中选择所在的企业项目。更多关于企业项目的信息,请参见《企业管理用户指南》

        • 流程名称:输入流程名称,需确保该值唯一。
        • 流程LOGO(可选):上传流程LOGO。
        • 选择文件/选择WDL流程文件:上传流程模板文件,上传后可预览流程模板内容。
        • 发布者(可选):输入发布者名称。
        • 流程描述(可选):输入流程描述信息。
      2. 单击“创建”,创建成功后系统将自动跳转到“自定义流程”页面,可查看到已创建成功的流程。
    • 流程设计器创建(仅支持创建GCS流程)
      基因容器的流程设计器是一种用于创建、查看、修改流程的图形化工具,设计器的使用请参见流程设计器
      1. 在设计器中拖拽工具到画布中,连接各工具,指定工具间的先后顺序。
      2. 参照设计器属性帮助栏的提示修改流程模板,单击设计器页面顶部的,校验模板是否正确。在界面左侧“操作日志”窗口中若出现“流程校验成功”,表示流程正确。
      3. 单击设计器页面顶部的,选择“自定义流程”,选择企业项目,输入流程名称、流程Logo、发布者和流程描述,单击“保存”

        保存成功后请到“自定义流程”页面,可查看到已创建成功的流程。

运行流程

您可以运行示例流程进行分析,也可以使用自定义流程进行分析。

  1. 登录GCS控制台,选择左侧导航栏的“基因分析”,选择“示例流程”“自定义流程”
  2. 在右侧页面中单击“开始分析”,按界面提示填写流程参数。

    流程参数中包括“任务信息”、“配置”和“高级设置”。

    • 任务信息:包括任务名称、环境和存储选择。“高速共享存储”对应的是文件存储服务SFS,用于存储流程中间数据。如果您已有可用的SFS,请在下拉框中选择。如果没有SFS,请“新建存储”,并选择容量大小。
      图1 任务信息
    • 配置:包括“通用配置”和“高级配置”,请根据界面提示信息完成参数配置。其中“通用配置”中的参数为必配项,需要根据您项目的实际情况修改。“高级配置”可以保留默认值,或根据您的需求修改。您还可以执行“导入参数集”、将参数“保存到参数集”、新建/删除任务等操作。
      图2 配置
    • 高级设置:可选项,包括“超时时间”、“批次名称”、“优先级”、“订阅消息通知”、“镜像拉取策略”和“重试次数”。
      • 超时时间:设置一个可接受的流程执行成功的时间,如果到这个时间流程没有执行成功,就会停止并且报执行失败。
      • 批次名称:设置当前任务的批次,在执行结果页面可对批次进行过滤和筛选,便于批量操作同一个批次的任务。
      • 优先级:设置当前任务优先级,优先级范围为[0-999],数值大的优先执行。
      • 订阅消息通知:订阅者可通过此功能在接收终端收到所订阅的任务事件通知消息(目前仅支持单个任务消息订阅)。订阅消息通知开启后,可勾选订阅事件(任务执行成功、任务执行失败)、添加订阅终端(短信或邮箱,最多可添加20个订阅终端)。
        图3 添加订阅终端

        添加订阅终端后,可选择设置自定义消息模板。模板内容默认为空,最多可包含360个字符(中文字默认为3个字符,空格为1个字符)。模板中可使用占位符,{name}、{guid}、{status}占位符分别对应执行任务的名称、ID、状态,每个占位符最多使用一次,不支持其他字符写成占位符格式。

        模板内容示例:任务{name},executionID为{guid},任务执行状态为{status}。

        消息内容示例:任务gcs-job-02-19-141146,executionID为6745c000-340d-11e9-a8c0-0255ac109xxx,任务执行状态为Succeeded。

        图4 自定义消息模板
      • 镜像拉取策略:使用上次已拉取镜像(只有镜像不存在时,才会进行镜像拉取)、每次重新拉取(不管镜像是否存在都会进行一次拉取)。
      • 重试次数:任务失败重试次数,重试次数范围为[0-9],CCI环境默认重试0次,CCE环境默认重试3次。

  3. 单击“下一步”。在“执行预览”页面,查看流程预览、执行任务预览和配置。
  4. 确认无误后单击“开始”,流程执行任务提交成功。

    分析流程执行时间需要数小时,具体时长与环境资源类型、环境资源大小、处理数据大小等相关,您可以单击“执行结果详情”进入执行结果页面查看执行过程。

查看流程

您可以查看示例流程和自定义流程的信息和预览图等。

  1. 登录GCS控制台,选择左侧导航栏的“基因分析”,选择“示例流程”“自定义流程”
  2. 在右侧页面中单击流程的名称,进入流程详情页面,该页面展示了流程的基本信息(发布者、创建时间及描述)、流程预览图(预览图仅支持通过设计器生成的流程)、最近执行结果,如图5

    图5 流程信息、预览图、最近执行结果

    单击“包含工具”页签,可查看流程包含的工具。

    图6 包含工具
    单击“资源统计”页签,可查看资源统计图,包括耗时、运行时间占比、内存消耗、CPU消耗、GPU消耗等。
    • 耗时:所有子任务实际运行时间与调度时间总和。
    • 运行时间占比:所有子任务实际运行时间总和与耗时之比。
    图7 资源统计

  1. 在流程详情页面,您还可以做如下操作:

    • 分析:单击“分析”,将跳转到运行流程页面,运行流程操作请参考运行流程
    • 下载:单击“下载”,将流程的模板文件下载到本地。
    • 更新:仅自定义流程支持更新操作。单击“更新”,可以通过上传本地流程模板更新流程LOGO、流程文件和流程描述,也可以通过流程设计器更新流程。
    • 删除:仅支持自定义流程删除操作。单击“删除”,删除当前流程。删除操作无法恢复,请谨慎操作。
    • 设计器打开:单击“设计器打开”,在设计器中查看、修改流程。

相关文档