更新时间:2021-09-18 GMT+08:00
分享

模型训练

使用特征工程处理后生成的训练集进行模型训练。

创建训练任务(简易编辑器)

  1. 单击简易编辑器界面右上角的“训练”,弹出“训练配置”对话框,如图1所示。

    图1 训练任务配置

  2. 在“训练配置”对话框中配置参数,如表1所示。

    表1 训练配置参数配置

    区域

    参数名称

    参数描述

    任务说明

    任务名称

    训练任务的名称。

    只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线结尾,长度范围为[1,32]。

    描述

    训练任务的描述信息。

    任务运行环境

    AI引擎

    AI引擎及AI引擎的Python版本。

    创建tensorboard任务

    创建Tensorboard,详情请参见创建Tensorboard

    自定义引擎

    通过引擎的镜像地址自定义增加引擎。

    主入口

    训练任务的入口文件及入口函数。

    计算节点规格

    模型训练服务提供的计算节点资源,包括CPU和GPU。

    用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。

    计算节点个数

    计算节点的个数。

    • 1代表单节点计算
    • 2代表分布式计算,开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练,训练算法需要符合MoXing程序结构。可参考如下文档:https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc

    数据集参数配置

    数据集超参

    配置数据集实例的超参。

    通过调用SDK(get_hyper_param)获取数据集相关的超参,包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。

    详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。

    超参配置

    运行超参

    通过调用SDK(get_hyper_param)获取运行超参,包括标签列、迭代次数等。运行超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。

    详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。

    超参优化

    训练任务执行的过程中可以同步进行超参优化。

    勾选“运行超参”后的“超参优化”复选框,可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后,可以单击查看优化报告,得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务

  3. 单击“开始训练”,提交模型训练任务。

    如果“训练任务状态”一直处在“RUNNING”中,模型训练服务的前台就会一直给后台发消息,查询当前训练任务的状态。即使平台访问超时,查询训练任务状态的接口还是会一直给后台发送查询消息,永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”,接口才会停止服务状态查询操作。

  4. 单击,查看训练状态。

    • ALL显示所有训练任务。
    • WAITING表示训练任务准备中。
    • RUNNING表示正在训练。
    • FINISHED表示训练成功。
    • FAILED表示训练失败。
    • STOPPED表示停止训练任务。

  5. 单击训练任务下方的图标,查看系统日志、运行日志、运行图和Tensorboard信息。

    • 系统日志:可以查看代码执行的具体过程。系统运行日志信息,如代码目录、日志路径、使用的SDK信息等。
    • 运行日志:用户可以在代码编辑的时候自定义信息输出到运行日志中,用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时,可以通过运行日志定位训练任务失败原因。
    • 运行图:用户在训练工程中,调用SDK,以图表的形式显示任务执行信息。
    • Tensorboard:创建训练任务时,若勾选了“创建Tensorboard任务”,训练结束后,该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
    单击图标,查看模型评估报告。
    • 评估指标:可以通过数值和图表方式展示各项指标的数据信息。
    • 超参:展示训练集、测试集和标签列的信息。
    • 任务系统参数:展示训练任务的配置参数信息。

创建训练任务(WebIDE)

  1. 返回“模型训练”菜单界面,单击模型训练工程所在行,进入训练工程详情界面。
  2. 单击界面右上角的图标,弹出“训练任务配置”对话框,如图2所示。

    图2 训练任务配置

  3. 在“训练任务配置”对话框中配置参数,如表2所示。

    表2 训练配置参数配置

    区域

    参数名称

    参数描述

    任务说明

    任务名称

    训练任务的名称。

    只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线结尾,长度范围为[1,32]。

    描述

    训练任务的描述信息。

    任务运行环境

    AI引擎

    AI引擎及AI引擎的Python版本。

    创建tensorboard任务

    创建Tensorboard,详情请参见创建Tensorboard

    自定义引擎

    通过引擎的镜像地址自定义增加引擎。

    主入口

    训练任务的入口文件及入口函数。

    计算节点规格

    模型训练服务提供的计算节点资源,包括CPU和GPU。

    用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。

    计算节点个数

    计算节点的个数。

    • 1代表单节点计算
    • 2代表分布式计算,开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练,训练算法需要符合MoXing程序结构。可参考如下文档:https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc

    数据集参数配置

    数据集超参

    配置数据集实例的超参。

    通过调用SDK(get_hyper_param)获取数据集相关的超参,包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。

    详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。

    超参配置

    运行超参

    通过调用SDK(get_hyper_param)获取运行超参,包括标签列、迭代次数等。运行超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。

    详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。

    超参优化

    训练任务执行的过程中可以同步进行超参优化。

    勾选“运行超参”后的“超参优化”复选框,可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后,可以单击查看优化报告,得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务

  4. 单击“开始训练”,训练任务开始。
  5. 单击界面右上角的“关闭”,返回模型训练工程详情界面。

    “模型训练任务”下方展示新建的训练任务,“训练状态”列展示任务的状态。
    • ALL显示所有训练任务。
    • WAITING表示训练任务准备中。
    • RUNNING表示正在训练。
    • FINISHED表示训练成功。
    • FAILED表示训练失败。
    • STOPPED表示停止训练任务。

      如果“训练任务状态”一直处在“RUNNING”中,模型训练服务平台的前台就会一直给后台发消息,查询当前训练任务的状态。即使平台访问超时,查询训练任务状态的接口还是会一直给后台发送查询消息,永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”,接口才会停止服务状态查询操作。

  6. 单击训练任务记录对应的图标,查看系统日志、运行日志、运行图和Tensorboard信息。

    • 系统日志:可以查看代码执行的具体过程。系统运行日志信息,如代码目录、日志路径、使用的SDK信息等。
    • 运行日志:用户可以在代码编辑的时候自定义信息输出到运行日志中,用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时,可以通过运行日志定位训练任务失败原因。
    • 运行图:用户在训练工程中,调用SDK,以图表的形式显示任务执行信息。
    • Tensorboard:创建训练任务时,若勾选了“创建Tensorboard任务”,训练结束后,该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
    单击图标,查看模型评估报告。
    • 评估指标:可以通过数值和图表方式展示各项指标的数据信息。
    • 超参:展示训练集、测试集和标签列的信息。
    • 任务系统参数:展示训练任务的配置参数信息。

相关文档