更新时间:2025-08-07 GMT+08:00
修改训练作业优先级
使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。
什么是训练作业优先级
在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级,可能是跑一些测试、也可能是跑一些简单的不重要的实验。在这类场景下,当有高优先级作业的时候,需要能比低优先级作业更快进入排队队列。
在资源使用高峰期,用户可以通过提供或降低训练作业的优先级,来动态调节作业的执行顺序,保障关键业务的及时运行。
约束限制
- 仅使用专属资源池训练时才支持设置训练作业优先级。公共资源池不支持设置训练作业优先级。
- 作业优先级可以设置的取值为数字1-3,数字越大,优先级越高,默认优先级为“1”,最高优先级为“3”。当选择“3”优先级时,还需要配置用户权限才可以生效,权限配置参考本章节内容给子账号配置"设置作业调度最高优先级"权限。
- 只有训练作业长时间在专属资源池的排队列表中导致的“等待中”状态才支持修改作业优先级,如果是其他原因导致的长时间等待则不支持修改作业优先级。
如何设置训练作业优先级
在创建训练作业页面可以勾选“提高作业调度优先级”。优先级可以设置数字1-3,数字越大,优先级越高,默认优先级为“1”,最高优先级为“3”。
如何修改训练作业优先级
- 在训练作业列表页面,选择“状态”为“等待中”的训练作业。
- 单击训练作业名称,进入详情页面。
- 在“作业优先级”单击
,在弹窗中修改优先级后单击“确定”。
在ModelArts Standard中,训练作业的排队和优先级下发逻辑如下:
- 相同优先级作业的下发逻辑:
- 如果资源充足,作业按照提交时间的顺序进行调度,遵循先进先出(FIFO)原则依次执行。
- 如果资源不足,可能会出现不同逻辑池的作业被优先调度的情况,导致先进先出的顺序不完全保证。
- 排队中调整优先级后的下发逻辑:
给子账号配置"设置作业调度最高优先级"权限
默认用户权限可选择优先级“1”和“2”,配置了"设置作业为高优先级"权限的用户可选择优先级1~3。当选择优先级为“3”时还需要为用户配置“modelarts:trainJob:setHighPriority”权限,才能生效。
- 使用主用户账号登录华为云管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。
- 在统一身份认证服务页面的左侧导航选择 ,单击右上角的“创建自定义策略”按如下要求设置完成后单击“确定”。
- “策略名称”:设置自定义策略名称,例如:允许用户设置训练作业最高优先级。
- “策略配置方式”:选择可视化视图。
- “策略内容”:允许,云服务中搜索ModelArts服务并选中,操作列中搜索关键词“modelarts:trainJob:setHighPriority”并选中,所有资源选择默认值。
- 在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。
此时,该用户组下的所有用户均有权限设置训练作业优先级1~3。
如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子用户没有在用户组中,也可以通过“用户组管理”功能增加用户。
父主题: 管理模型训练作业