调度策略
场景描述
在华为云的资源管理场景中,用户在配置推理服务时,可能会遇到需要优化调度策略以提高服务性能或资源利用率的情况。例如,当用户希望确保服务的高可用性时,通常会选择高可用调度策略,这要求不同部署副本的Pod尽量均匀分布到不同节点上,以减少单点故障的影响。然而,在实际操作中,用户可能会发现现有的调度策略配置选项不够灵活,无法满足特定的业务需求,如在某些场景下需要更精细地控制调度优先级或应用紧凑调度策略来提高资源利用率。面对这一挑战,用户可能会产生疑问:如何在华为云平台上更灵活地配置调度策略,以适应不同的业务场景需求?
ModelArts平台针对专属资源池在线推理服务,提供高可用调度、紧凑调度、亲和调度三种差异化调度策略,通过灵活调整服务实例在集群节点中的分布逻辑,分别满足业务高可靠运行、资源高效利用、定制化部署管控三类核心诉求。
支持的调度策略
推理服务支持高可用调度、紧凑调度、亲和调度策略协同。
- 高可用调度:要求不同部署副本的Pod尽量均匀分布到不同节点上,以减少单点故障的影响
- 紧凑调度:即binpack调度策略,binpack调度可以提高资源碎片化利用率,对整个集群生效。
- 亲和调度:节点亲和/反亲和
| 对比维度 | 高可用调度 | 紧凑调度 | 亲和调度 |
|---|---|---|---|
| 核心作用 | 抵御单点故障,保障业务稳定连续运行 | 整合闲置资源,提升整体资源利用率 | 自定义部署范围,实现业务专属管控与隔离 |
| 适用场景 | 线上核心生产业务、实时高并发推理 | 测试调试、灰度业务、低流量非核心业务 | 模型预热部署、硬件绑定、业务安全隔离 |
| 实例分布 | 分散分布至多个不同物理节点 | 集中收拢至最少数量节点 | 按自定义规则定点部署 / 定点规避 |
| 适配资源池 | 仅专属资源池 | 仅专属资源池 | 仅专属资源池 |
| 故障风险 | 风险分散,单节点故障影响极小 | 风险集中,节点故障易批量影响服务 | 随选定节点状态而定,强规则容错性低 |
| 资源利用率 | 中等平稳 | 最高最优 | 按需可控 |
| 核心约束 | 副本数≥2,依赖充足集群节点 | 不可用于核心生产,仅限同规格节点池 | 强规则易部署失败,节点勾选数量有限 |
| 基础部署前提 | 专属资源池正常运行,副本数量达标 | 无高可用硬性要求,节点规格统一 | 目标节点健康可用,提前完成预热 / 节点划分 |
| 快速配置要点 | 调高调度优先级,配置滚动升级与自愈 | 关闭亲和调度,调低调度优先级 | 开启调度功能,选定类型与强度,勾选指定节点 |
高可用调度策略
概念介绍:
高可用调度是在线推理服务的默认推荐策略,核心目标是避免单点故障、保障服务持续可用。适用于生产环境核心业务,如在线智能客服、金融实时风控、自动驾驶决策推理等对服务稳定性要求极高、不可中断的场景。通过将服务副本分散部署在不同物理节点、机架甚至机房,避免单节点 / 机架故障导致服务整体不可用,同时支持滚动升级时无损切换,保障业务零中断。
配置入口:
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“资源配置 > 调度策略 ”中勾选“高可用调度”。在线服务部署具体操作请参见部署在线服务-部署配置。
约束限制:
- “高可用调度”与“紧凑调度”只能二选一,默认开启“高可用调度”。
- 当同时开启“高可用调度”和“亲和调度”时,以“亲和调度”设置优先。
紧凑调度
概念介绍:
紧凑调度核心目标是最大化资源利用率、降低部署成本。在集群工作负载的调度过程中使用装箱调度策略 (Binpack) ,调度器会优先将 Pod 调度到资源消耗较多的节点,减少各节点空闲资源碎片,提高集群资源利用率。
适用场景:
适用于非核心测试环境、离线推理过渡场景、资源紧张的边缘部署等对稳定性要求适中、优先控制成本的场景,如模型功能验证、小流量测试、边缘节点轻量级推理等。
配置入口:
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“资源配置 > 调度策略 ”中勾选“紧凑调度”。在线服务部署具体操作请参见部署在线服务-部署配置。
约束限制:
- “高可用调度”与“紧凑调度”只能二选一,默认开启“高可用调度”。
- 当同时开启“紧凑调度”和“亲和调度”时,以“亲和调度”设置优先。
亲和调度
概念介绍:
亲和调度是精细化自定义调度策略,支持通过节点亲和 / 反亲和规则,精准控制服务副本部署的节点范围,适配特殊部署约束场景。通过配置节点亲和类型和强度,可实现资源池灵活的工作负载调度。若不指定,将根据集群默认调度策略随机调度。
配置入口:
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“单元配置 > 更多配置 ”中勾选“亲和调度”,在右侧弹窗中配置具体的亲和调度策略。在线服务部署具体操作请参见部署在线服务-部署配置。
| 亲和类型 | 强度 | 适用场景 |
|---|---|---|
| 节点亲和 | 弱亲和 | 优先部署到指定节点,节点资源不足时可调度至其他节点,平衡缓存复用与资源灵活性。 |
| 强亲和 | 强制部署到指定节点,适用于已预热模型专属节点、挂载本地硬件加密卡节点、绑定特定外设(如摄像头、传感器)的边缘节点,确保模型缓存复用、硬件资源独占。 | |
| 节点反亲和 | 弱亲和 | 尽量不部署到指定节点,无其他节点时可妥协部署,兼顾隔离需求与资源可用性。 |
| 强亲和 | 禁止部署到指定节点,适用于避免与高负载服务同节点、规避故障频发节点、隔离敏感业务与非敏感业务。 |
在“添加节点”列表中勾选实现以上配置规则的节点。
用户在选择了已预热模型后,在配置亲和调度页面会展示已经预热成功的节点,未预热的节点不展示,并且页面会提示“当前选择的模型已预热,将自动部署至最优节点,若手动指定节点可能导致预热加速失效”。