模型训练
使用特征工程处理后生成的训练集进行模型训练。
创建训练任务(简易编辑器)
- 单击简易编辑器界面右上角的“训练”,弹出“训练配置”对话框,如图1所示。
- 在“训练配置”对话框中配置参数,如表1所示。
表1 训练配置参数配置 区域
参数名称
参数描述
任务说明
任务名称
训练任务的名称。
只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线结尾,长度范围为[1,32]。
描述
训练任务的描述信息。
任务运行环境
AI引擎
AI引擎及AI引擎的Python版本。
创建tensorboard任务
创建Tensorboard,详情请参见创建Tensorboard。
自定义引擎
通过引擎的镜像地址自定义增加引擎。
主入口
训练任务的入口文件及入口函数。
计算节点规格
模型训练服务提供的计算节点资源,包括CPU和GPU。
用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。
计算节点个数
计算节点的个数。
- 1代表单节点计算
- 2代表分布式计算,开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练,训练算法需要符合MoXing程序结构。可参考如下文档:https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc
数据集参数配置
数据集超参
配置数据集实例的超参。
通过调用SDK(get_hyper_param)获取数据集相关的超参,包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。
详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。
超参配置
运行超参
通过调用SDK(get_hyper_param)获取运行超参,包括标签列、迭代次数等。运行超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。
详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。
超参优化
训练任务执行的过程中可以同步进行超参优化。
勾选“运行超参”后的“超参优化”复选框,可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后,可以单击查看优化报告,得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务。
- 单击“开始训练”,提交模型训练任务。
如果“训练任务状态”一直处在“RUNNING”中,模型训练服务的前台就会一直给后台发消息,查询当前训练任务的状态。即使平台访问超时,查询训练任务状态的接口还是会一直给后台发送查询消息,永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”,接口才会停止服务状态查询操作。
- 单击,查看训练状态。
- ALL显示所有训练任务。
- WAITING表示训练任务准备中。
- RUNNING表示正在训练。
- FINISHED表示训练成功。
- FAILED表示训练失败。
- STOPPED表示停止训练任务。
- 单击训练任务下方的图标,查看系统日志、运行日志、运行图和Tensorboard信息。
- 系统日志:可以查看代码执行的具体过程。系统运行日志信息,如代码目录、日志路径、使用的SDK信息等。
- 运行日志:用户可以在代码编辑的时候自定义信息输出到运行日志中,用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时,可以通过运行日志定位训练任务失败原因。
- 运行图:用户在训练工程中,调用SDK,以图表的形式显示任务执行信息。
- Tensorboard:创建训练任务时,若勾选了“创建Tensorboard任务”,训练结束后,该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
单击图标,查看模型评估报告。- 评估指标:可以通过数值和图表方式展示各项指标的数据信息。
- 超参:展示训练集、测试集和标签列的信息。
- 任务系统参数:展示训练任务的配置参数信息。
创建训练任务(WebIDE)
- 返回“模型训练”菜单界面,单击模型训练工程所在行,进入训练工程详情界面。
- 单击界面右上角的图标,弹出“训练任务配置”对话框,如图2所示。
- 在“训练任务配置”对话框中配置参数,如表2所示。
表2 训练配置参数配置 区域
参数名称
参数描述
任务说明
任务名称
训练任务的名称。
只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线结尾,长度范围为[1,32]。
描述
训练任务的描述信息。
任务运行环境
AI引擎
AI引擎及AI引擎的Python版本。
创建tensorboard任务
创建Tensorboard,详情请参见创建Tensorboard。
自定义引擎
通过引擎的镜像地址自定义增加引擎。
主入口
训练任务的入口文件及入口函数。
计算节点规格
模型训练服务提供的计算节点资源,包括CPU和GPU。
用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。
计算节点个数
计算节点的个数。
- 1代表单节点计算
- 2代表分布式计算,开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练,训练算法需要符合MoXing程序结构。可参考如下文档:https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc
数据集参数配置
数据集超参
配置数据集实例的超参。
通过调用SDK(get_hyper_param)获取数据集相关的超参,包括训练数据集实例、验证数据集实例等。数据集超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。
详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。
超参配置
运行超参
通过调用SDK(get_hyper_param)获取运行超参,包括标签列、迭代次数等。运行超参支持输入多个,可以通过“增加”和图标,来增加或删除运行超参。
详细SDK说明,请在模型训练服务首页右下角的浮框中,依次单击“帮助中心 > SDK文档”查看。
超参优化
训练任务执行的过程中可以同步进行超参优化。
勾选“运行超参”后的“超参优化”复选框,可配置运行超参的参数类型、起始值、终止值、优化方法、优化目标和终止条件。训练完成后,可以单击查看优化报告,得到运行超参不同取值下的模型评分和试验时长。详情请参见创建超参优化服务。
- 单击“开始训练”,训练任务开始。
- 单击界面右上角的“关闭”,返回模型训练工程详情界面。
“模型训练任务”下方展示新建的训练任务,“训练状态”列展示任务的状态。
- ALL显示所有训练任务。
- WAITING表示训练任务准备中。
- RUNNING表示正在训练。
- FINISHED表示训练成功。
- FAILED表示训练失败。
- STOPPED表示停止训练任务。
如果“训练任务状态”一直处在“RUNNING”中,模型训练服务平台的前台就会一直给后台发消息,查询当前训练任务的状态。即使平台访问超时,查询训练任务状态的接口还是会一直给后台发送查询消息,永不超时。直到“训练任务状态”变更为“FINISHED”、“FAILED”或“STOPPED”,接口才会停止服务状态查询操作。
- 单击训练任务记录对应的图标,查看系统日志、运行日志、运行图和Tensorboard信息。
- 系统日志:可以查看代码执行的具体过程。系统运行日志信息,如代码目录、日志路径、使用的SDK信息等。
- 运行日志:用户可以在代码编辑的时候自定义信息输出到运行日志中,用于查看代码执行的具体结果。例如用户信息、代码目录、执行命令等。当训练任务运行失败时,可以通过运行日志定位训练任务失败原因。
- 运行图:用户在训练工程中,调用SDK,以图表的形式显示任务执行信息。
- Tensorboard:创建训练任务时,若勾选了“创建Tensorboard任务”,训练结束后,该页签可以展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。
单击图标,查看模型评估报告。- 评估指标:可以通过数值和图表方式展示各项指标的数据信息。
- 超参:展示训练集、测试集和标签列的信息。
- 任务系统参数:展示训练任务的配置参数信息。