文档首页 > > AI工程师用户指南> 训练管理> 自动化搜索作业> 创建自动化搜索作业

创建自动化搜索作业

分享
更新时间:2020/07/10 GMT+08:00

前提条件

  • 数据已完成准备:已在ModelArts中创建可用的数据集,或者您已将用于自动化搜索作业的数据上传至OBS目录。
  • 用于自动化搜索作业的代码和配置文件已准备就绪,且已上传至OBS目录。AutoSearch代码编写规范请参见代码编写规范,yaml配置文件的编写规范请参见yaml配置文件说明
  • 已在OBS创建至少2个空的文件夹,用于存储搜索结果以及作业日志。
  • 由于训练作业运行需消耗资源,确保账户未欠费。
  • 确保您使用的OBS目录与ModelArts在同一区域。

背景信息

  • 目前,自动化搜索作业的AI引擎仅支持“AutoSearch-python3.6”“AutoSearch-python3.6”为ModelArts提供的引擎,内置了TensorFlow 1.13.0版本、PyTorch 1.0.0版本的引擎。在编写自动化搜索作业的代码时,需使用TensorFlow、PyTorch相应版本的接口。

创建自动化搜索作业

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“训练管理 > 自动化搜索作业”,默认进入“自动化搜索作业”列表。
  2. “自动化搜索作业”列表中,单击左上角“创建”,进入“创建自动化搜索作业”页面。
  3. 在创建自动化搜索作业页面,填写作业相关参数,然后单击“下一步”
    1. 填写基本信息。基本信息包含“计费模式”“名称”“版本”“描述”。其中“计费模式”当前仅支持“按需计费”,不支持修改。“版本”信息由系统自动生成,按“V001”“V002”递增规则命名,用户无法修改。
      您可以根据实际情况填写“名称”“描述”信息。
      图1 自动化搜索作业基本信息
    2. 填写自动化搜索作业参数。包含数据来源、算法来源等关键信息,详情请参见表1
      图2 设置作业参数
      表1 自动化搜索作业的参数说明

      参数名称

      说明

      一键式参数配置

      如果您在ModelArts已保存作业参数,您可以根据界面提示,选择已有的作业参数,快速完成训练作业的参数配置。

      数据来源(数据集)

      从ModelArts数据管理中选择可用的数据集及其版本。

      • “选择数据集”:从右侧下拉框中选择ModelArts系统中已有的数据集。当ModelArts无可用数据集时,此下拉框为空。
      • “选择版本”:根据“选择数据集”指定的数据集选择其版本。

      数据来源(数据存储位置)

      从OBS桶中选择训练数据。在“数据存储位置”右侧,单击“选择”,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。

      AI引擎

      目前,自动化搜索作业的AI引擎支持“AutoSearch-python3.6”“Autosearch-Ascend-Powered”。后者专门用于在Ascend 910资源上进行搜索,默认使用普通Python 3.6工作环境编写代码。

      代码目录

      指定AutoSearch代码文件存储的OBS路径,此处设置为“启动文件”的所在目录即可。

      启动文件

      AutoSearch代码的启动文件,一般以“.py”格式结尾。

      搜索结果导出位置

      用于存储作业输出结果。建议选择一个空目录。请勿将数据集存储的目录作为训练输出位置。

      运行参数

      代码中的命令行参数设置值,请确保参数名称和代码的参数名称保持一致。“AutoSearch-python3.6”引擎内置了一些运行参数,如表4所示,此运行参数会在启动作业时自动发给服务。针对必选参数,您需要在创建作业时进行设置。针对您自己在代码中定义的参数,也必须在此处增加运行参数及其对应参数值,用于作业运行时调用。

      例如:max_steps=10,其中“max_steps”为代码中的某个传参。

      作业日志路径

      选择作业运行中产生的日志文件存储路径。单击“选择”可从OBS中选择一个目录作为日志输出路径,也可以单击“清除”,将已设置的路径删除。

    3. 选择用于自动化搜索作业的资源。由于目前用于自动化搜索作业的资源有限,仅提供了部分资源规格,资源相关的参数已按当前支持的规格填写,无需修改。其相应的描述请参见表2
      图3 选择资源
      表2 资源参数说明

      参数名称

      说明

      资源池

      选择训练作业资源池。自动化搜索作业目前仅支持选择公共资源池,目前“AutoSearch-python3.6”仅支持GPU规格,“CPU:8 核 64GiB GPU:1 * nvidia-v100 32GiB”“Autosearch-Ascend-Powered” 仅支持NPU规格。

      计算节点个数

      选择计算节点的个数。如果节点个数设置为1,表示后台的计算模式是单机模式。目前仅支持单机模式。

    4. 配置订阅消息,并设置是否将当前自动化搜索作业中的参数保存为作业参数。
      图4 配置订阅消息
      表3 订阅消息及作业参数的参数说明

      参数名称

      说明

      订阅消息

      订阅消息使用消息通知服务,在事件列表中选择需要监控的资源池状态,在事件发生时发送消息通知。

      此参数为可选参数,您可以根据实际情况设置是否打开开关。如果开启订阅消息,请根据实际情况填写如下参数。

      • “主题名”:订阅消息主题名称。您可以单击创建主题,在消息通知服务中创建主题。
      • “事件列表”:订阅事件。当前可选择“OnJobRunning”“OnJobSucceeded”“OnJobFailed”三种事件,分别代表训练运行中、运行成功、运行失败。

      保存作业参数

      勾选此参数,表示将当前训练作业设置的作业参数保存,方便后续一键复制使用。

      勾选“保存训练参数”,然后填写“作业参数名称”“作业参数描述”,即可完成当前参数配置的保存。训练作业创建成功后,您可以从ModelArts的作业参数列表中查看保存的信息,详细操作指导请参见管理作业参数

    5. 完成参数填写后,单击“下一步”
  4. “规格确认”页面,确认填写信息无误后,单击“立即创建”,完成自动化搜索作业的创建。自动化搜索作业一般需要运行一段时间,根据您选择的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。

    自动化搜索作业创建完成后,将立即启动。

    您可以前往“自动化搜索作业”列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”“初始化”,当作业的“状态”变为“运行成功”时,表示作业运行结束,其输出结果将存储至对应的“搜索结果导出位置”中。当作业的“状态”变为“运行失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。

预置的运行参数及API参考

表4 支持的运行参数

参数名

是否必选

类型

含义

config_path

string

自动化搜索作业的配置文件路径(OBS路径)。填写OBS路径时,请使用“obs://”开头。

train_url

string

搜索结果的存放路径。当您设置了“搜索结果导出位置”参数后,将自动生成参数及其参数值。

表5 API参考

搜索空间

ModelArts AutoSearch API

入参

说明

reporter

autosearch.reporter

任意的指标,如accuracy, latency等

示例:

autosearch.reporter(accuracy=foo, loss=bar)

具体可以参考各使用示例中的代码。

config

autosearch.config

-

获得AutoSearch框架传给训练代码的参数。

后续操作

针对自动化搜索作业,支持作业版本管理、停止或删除作业、查看作业详情以及作业参数管理等功能,其操作与训练作业类似。本文不再赘述,建议参考训练作业的操作指导。与训练作业不同的是,自动化搜索作业暂时不支持创建和管理对应的可视化作业。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问