更新时间:2024-08-08 GMT+08:00
分享

创建自动作业

针对存在需要批量创建分析作业的场景,您可以选择创建自动作业。

“自动作业”页签,您可以查看已创建的自动作业,包含作业名称、状态、数据表、创建者、创建时间;在操作列,您可以对已创建的自动作业执行启动、编辑、删除操作,运行中的作业可以执行停止操作。

图1 自动作业

前提条件

  • “工具”中完成流程创建
  • “数据库”中完成样本集的数据库创建。数据库的每一行对应一个任务,如果满足触发条件,就会在平台自动运行,并在分析任务列表添加一条记录。

创建自动作业

  1. “作业”页面左侧,单击“自动作业”页签。
  2. 在页面左上角单击“新建自动作业”
  3. 设置作业基本信息,包括“名称”“描述”“数据表”“流程名称”“作业状态更新”

    “作业状态更新”中可选“选择已有列”或“新建一列”。

    • 选择“选择已有列”时,需要选择已有列名,已有列名必须为string类型,可以搜索到,并且非主键。

      并设置是否“清空作业状态更新列”,状态更新列的值为空的数据才会投递作业。

    • 选择“新建一列”,需要输入新建的列名。
    图2 设置作业基本信息
  4. 定义触发器。使用触发器来筛选需要运行作业的数据,并且满足状态更新列的值为空的数据才会被投递作业。

    单击“添加条件”,在数据列名、判断模式、值中定义投递作业的触发条件。数据列名不能选择作业状态更新列,并且列名可搜索。

    图3 定义触发器
  5. 填写作业参数配置。填写完成后,单击“下一步:设置流程参数”。
    • 作业名称:可选择“数据库表”“自定义”“自动生成”
    • 标签:设置作业标签。
    • 描述:根据需要填写。
    • 输出路径:可选择“数据库表”“自定义”。选择“自定义”时,存放输出结果的路径,格式以/开头。例如项目中的output文件夹,输出路径可设置为/output。不填写路径时,默认以“作业名-UUID”格式生成输出路径。
    • 优先级:运行优先级,分为0~9级,优先级高的作业会被优先执行。默认值为0。
    • 计算节点标签:作业会调度到含有相应标签的计算节点上。

      当应用和作业都配置了标签,如果应用和作业的计算节点标签在同一计算节点上,则应用调度至该计算节点上;应用和它的作业,不管节点标签是否一致,都会被调度到应用的节点标签所对应的计算节点上。

      如果设置了不存在的计算节点标签,作业会进入等待,直至配置了相应的标签。

    • 超时时间:作业运行时间超过设置时间时,认为超时,默认1440分钟,最大可设置为144000分钟,即作业运行至多100天。
    • 加速类型:
      加速效率:IO加速>本地盘加速>无
      • 无:作业运行于OBS中,不使用加速。
      • IO加速:IO加速使用弹性文件服务(SFS)提供高性能的数据读写,作业运行时,会将非最终结果的数据存储在SFS中用以提高任务运行效率,作业执行完成后会清理释放SFS空间。对于涉及频繁读写场景的任务建议开启IO加速,开启前需要先购买性能加速
      • 本地盘加速:使用计算节点的本地盘进行加速。使用本地盘加速时,需保证购买的计算节点带有“数据盘”。OBS桶中的数据不支持本地盘加速,使用OBS桶中数据用于本地盘加速,可能会导致作业运行失败。
        • 使用OBS桶中的数据投递作业时,当数据大于40G时作业会投递失败。
        • 使用OBS桶中的数据投递作业时,作业将数据copy至云硬盘后,数据变大了4096byte,导致作业投递失败。
        图4 “OBS”标签代表数据引用来源为OBS桶
    图5 作业参数配置
  6. 进入流程设计器页面。单击输入参数图标,设置输入数据。
    图6 流程设计器
  7. 单击应用图标,弹出编辑图标,单击按钮,设置应用参数。

    在“高级参数”下面可以设置加速类型。如果作业加速类型选择“无”,task加速类型可以任意选择。如果作业加速类型选择IO加速或者本地盘加速,则此处task加速类型无法设置。

  8. 参数确认无误后,单击页面上方“启动作业”按钮,可以直接基于该流程创建自动分析作业。

查看作业运行结果

自动作业运行完成后,在自动作业列表中单击数据表名称,跳转至对应的数据表中。在设置的状态更新列中,单击执行结果跳转至对应的分析作业,查看作业运行结果详情。

图7 查看作业运行结果

相关文档