更新时间:2024-10-24 GMT+08:00
修改训练作业优先级
使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。
什么是训练作业优先级
在用户运行训练作业过程中,有需要对训练任务(也叫训练作业)做优先级划分。比如有一些任务是低优先级,可能是跑一些测试、也可能是跑一些简单的不重要的实验。在这类场景下,当有高优先级任务的时候,需要能比低优先级任务更快进入排队队列。
在资源使用高峰期,用户可以通过提供或降低训练作业的优先级,来动态调节作业的执行顺序,保障关键业务的及时运行。
约束限制
- 仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。
- 作业优先级取值为1~3,默认优先级为1,最高优先级为3。默认用户权限可选择优先级1和2,配置了“设置作业为高优先级权限”的用户可选择优先级1~3。
如何修改训练作业优先级
在训练作业列表页面,选择“状态”为“等待中”的训练作业,单击“作业优先级”列的,在弹窗中修改优先级后单击“确定”。
图1 修改作业优先级
给子账号配置"设置作业为高优先级"权限
默认用户权限可选择优先级1和2,配置了"设置作业为高优先级"权限的用户可选择优先级1~3。
- 使用主用户账号登录华为云的管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。
- 在统一身份认证服务页面的左侧导航选择 ,单击右上角的“创建自定义策略”按如下要求设置完成后单击“确定”。
- “策略名称”:设置自定义策略名称,例如:允许用户设置训练作业最高优先级。
- “策略配置方式”:选择可视化视图。
- “策略内容”:允许,云服务中搜索ModelArts服务并选中,操作列中搜索关键词“modelarts:trainJob:setHighPriority”并选中,所有资源选择默认值。
- 在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。
此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。
如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子用户没有在用户组中,也可以通过“用户组管理”功能增加用户。
父主题: 管理模型训练作业