更新时间:2022-05-07 GMT+08:00
分享

新增作业(通用编辑器)

数据处理提供python脚本处理OBS数据的能力。用户可以根据实际情况本地上传数据文件,或者使用已有OBS数据,编写python处理脚本、scala或java jar包,处理数据。

操作步骤

  1. 在数据服务左侧导航,选择工具箱>数据开发>数据处理
  2. “任务管理”界面,单击“新增作业”
  3. 配置信息,参数说明见表1

    表1 参数说明

    参数

    说明

    基本信息

    作业名称

    自定义输入。

    开发环境

    该作业的运行环境。这里以“通用编辑器”为例。

    作业位置

    存储作业脚本的数据湖OBS桶路径。支持从下拉框中选择OBS桶,自动带出存储路径。

    作业描述

    作业描述信息。

    配置信息

    运行参数

    Python脚本中设置的运行参数,可以在这里赋值。单击“添加运行参数”,可输入多组运行参数。

  4. 单击“下一步”
  5. 在左侧单击“软件目录”页签,展示代码文件存放目录。

    • 软件目录:代码文件存放目录。
    • 数据目录:数据文件存放目录。
    • :新建文件夹。
    • :刷新左侧目录树。
    • :删除选中的目录或文件。

  6. (可选)单击左侧目录中的“main.py”、"py_main.py"、"sdk_main.py"文件,界面右侧展示文件内容。

    查看已有样例代码内容。

  7. 单击,自行上传编译好的Scala或者JAVA代码jar包;或者单击,自行在新增的脚本界面上编辑代码。
  8. 脚本编辑完成后,在键盘上按“Ctrl+s”,或者鼠标右键,单击“保存”
  9. 在左侧下方“配置信息”区域,配置参数。

    • 普通python作业运行参数配置,参数说明见表2
      表2 普通python作业运行参数说明

      参数

      说明

      执行引擎

      选择AI引擎和对应的Python语言版本,根据实际情况配置。

      • 样例1:选择PyTorch,根据实际情况配置对应的Python语言版本,例如:PyTorch-1.3.0-python3.7。
      • 样例2:选择TensorFlow,根据实际情况配置对应的Python语言版本,例如:TF-1.3.1-python3.7。
      • 样例3:选择XGBoost-Sklearn,根据实际情况配置对应的Python语言版本,例如:XGBoost-0.80-Sklearn-0.1.8.1-python2.7。

      启动文件

      单击右侧“选择”,在弹出的对话框中,选择需要执行的文件。

      规格

      选择执行作业的CPU和GPU配置。

      支持使用租户订购的ModelArts专属资源池。

      计算节点规格

      单节点运行。目前不支持修改。

      运行参数

      Python脚本中设置的运行参数,可以在这里赋值。

  10. 单击“保存配置”,在“提示”对话框单击“确定”,保存运行配置。
  11. 单击“提交运行”,开始执行作业。
  12. (可选)在任务管理界面,支持如下操作。

    • 支持按作业运行状态展示作业。例如,单击“成功”,任务列表仅展示“作业运行状态”值为“成功”的作业。
    • 查看作业信息:在需要查看的作业对应的“操作”列下,单击
    • 运行/停止作业:在需要运行/停止的作业对应的“操作”列下,单击/
    • 运行后数据的处理:在需要数据处理的任务对应的“操作”列下,单击,在下拉列表中选择对应功能处理数据。
    • 删除作业:在需要删除的作业对应的“操作”列下,单击>
    • 发布运行成功的数据为数据集:在需要发布的作业对应的“操作”列下,单击>

相关文档