模型训练

更新时间：2021-09-18 GMT+08:00

查看PDF

使用特征工程处理后生成的训练集进行模型训练。

创建训练任务（简易编辑器）

单击简易编辑器界面右上角的“训练”，弹出“训练配置”对话框，如图1所示。

图1 训练任务配置

在“训练配置”对话框中配置参数，如表1所示。

表1 训练配置参数配置
区域	参数名称	参数描述
任务说明	任务名称	训练任务的名称。只能以字母（A~Z a~z）开头，由字母、数字（0~9）、下划线（_）、（-）组成，不能以下划线结尾，长度范围为[1,32]。
任务说明	描述	训练任务的描述信息。
任务运行环境	AI引擎	AI引擎及AI引擎的Python版本。
	创建tensorboard任务	创建Tensorboard，详情请参见创建Tensorboard。
	自定义引擎	通过引擎的镜像地址自定义增加引擎。
	主入口	训练任务的入口文件及入口函数。
	计算节点规格	模型训练服务提供的计算节点资源，包括CPU和GPU。用户可以单击选定计算节点资源，并在“计算节点个数”中配置计算节点资源的个数。
	计算节点个数	计算节点的个数。 1代表单节点计算 2代表分布式计算，开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练，训练算法需要符合MoXing程序结构。可参考如下文档：https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc
数据集参数配置	数据集超参	配置数据集实例的超参。通过调用SDK（get_hyper_param）获取数据集相关的超参，包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个，可以通过“增加”和图标，来增加或删除运行超参。详细SDK说明，请在模型训练服务首页右下角的浮框中，依次单击“帮助中心 > SDK文档”查看。
超参配置	运行超参	通过调用SDK（get_hyper_param）获取运行超参，包括标签列、迭代次数等。运行超参支持输入多个，可以通过“增加”和图标，来增加或删除运行超参。详细SDK说明，请在模型训练服务首页右下角的浮框中，依次单击“帮助中心 > SDK文档”查看。
超参配置	超参优化	训练任务执行的过程中可以同步进行超参优化。勾选“运行超参”后的“超参优化”复选框，可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后，可以单击查看优化报告，得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务。

单击“开始训练”，提交模型训练任务。

注意：

如果“训练任务状态”一直处在“RUNNING”中，模型训练服务的前台就会一直给后台发消息，查询当前训练任务的状态。即使平台访问超时，查询训练任务状态的接口还是会一直给后台发送查询消息，永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”，接口才会停止服务状态查询操作。
单击，查看训练状态。
- ALL显示所有训练任务。
- WAITING表示训练任务准备中。
- RUNNING表示正在训练。
- FINISHED表示训练成功。
- FAILED表示训练失败。
- STOPPED表示停止训练任务。
单击训练任务下方的图标，查看系统日志、运行日志、运行图和Tensorboard信息。
- 系统日志：可以查看代码执行的具体过程。系统运行日志信息，如代码目录、日志路径、使用的SDK信息等。
- 运行日志：用户可以在代码编辑的时候自定义信息输出到运行日志中，用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时，可以通过运行日志定位训练任务失败原因。
- 运行图：用户在训练工程中，调用SDK，以图表的形式显示任务执行信息。
- Tensorboard：创建训练任务时，若勾选了“创建Tensorboard任务”，训练结束后，该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
单击图标，查看模型评估报告。
- 评估指标：可以通过数值和图表方式展示各项指标的数据信息。
- 超参：展示训练集、测试集和标签列的信息。
- 任务系统参数：展示训练任务的配置参数信息。

创建训练任务（WebIDE）

返回“模型训练”菜单界面，单击模型训练工程所在行，进入训练工程详情界面。
单击界面右上角的图标，弹出“训练任务配置”对话框，如图2所示。

图2 训练任务配置

在“训练任务配置”对话框中配置参数，如表2所示。

表2 训练配置参数配置
区域	参数名称	参数描述
任务说明	任务名称	训练任务的名称。只能以字母（A~Z a~z）开头，由字母、数字（0~9）、下划线（_）、（-）组成，不能以下划线结尾，长度范围为[1,32]。
任务说明	描述	训练任务的描述信息。
任务运行环境	AI引擎	AI引擎及AI引擎的Python版本。
	创建tensorboard任务	创建Tensorboard，详情请参见创建Tensorboard。
	自定义引擎	通过引擎的镜像地址自定义增加引擎。
	主入口	训练任务的入口文件及入口函数。
	计算节点规格	模型训练服务提供的计算节点资源，包括CPU和GPU。用户可以单击选定计算节点资源，并在“计算节点个数”中配置计算节点资源的个数。
	计算节点个数	计算节点的个数。 1代表单节点计算 2代表分布式计算，开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练，训练算法需要符合MoXing程序结构。可参考如下文档：https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc
数据集参数配置	数据集超参	配置数据集实例的超参。通过调用SDK（get_hyper_param）获取数据集相关的超参，包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个，可以通过“增加”和图标，来增加或删除运行超参。详细SDK说明，请在模型训练服务首页右下角的浮框中，依次单击“帮助中心 > SDK文档”查看。
超参配置	运行超参	通过调用SDK（get_hyper_param）获取运行超参，包括标签列、迭代次数等。运行超参支持输入多个，可以通过“增加”和图标，来增加或删除运行超参。详细SDK说明，请在模型训练服务首页右下角的浮框中，依次单击“帮助中心 > SDK文档”查看。
超参配置	超参优化	训练任务执行的过程中可以同步进行超参优化。勾选“运行超参”后的“超参优化”复选框，可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后，可以单击查看优化报告，得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务。

单击“开始训练”，训练任务开始。
单击界面右上角的“关闭”，返回模型训练工程详情界面。
“模型训练任务”下方展示新建的训练任务，“训练状态”列展示任务的状态。
- ALL显示所有训练任务。
- WAITING表示训练任务准备中。
- RUNNING表示正在训练。
- FINISHED表示训练成功。
- FAILED表示训练失败。
- STOPPED表示停止训练任务。
  注意：
  
  如果“训练任务状态”一直处在“RUNNING”中，模型训练服务平台的前台就会一直给后台发消息，查询当前训练任务的状态。即使平台访问超时，查询训练任务状态的接口还是会一直给后台发送查询消息，永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”，接口才会停止服务状态查询操作。
单击训练任务记录对应的图标，查看系统日志、运行日志、运行图和Tensorboard信息。
- 系统日志：可以查看代码执行的具体过程。系统运行日志信息，如代码目录、日志路径、使用的SDK信息等。
- 运行日志：用户可以在代码编辑的时候自定义信息输出到运行日志中，用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时，可以通过运行日志定位训练任务失败原因。
- 运行图：用户在训练工程中，调用SDK，以图表的形式显示任务执行信息。
- Tensorboard：创建训练任务时，若勾选了“创建Tensorboard任务”，训练结束后，该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
单击图标，查看模型评估报告。
- 评估指标：可以通过数值和图表方式展示各项指标的数据信息。
- 超参：展示训练集、测试集和标签列的信息。
- 任务系统参数：展示训练任务的配置参数信息。