文档首页/ AI开发平台ModelArts/ 故障排除/ 推理部署/ 服务部署/ 在线服务使用模型预热功能出现Pod事件报错
更新时间:2026-02-04 GMT+08:00
分享

在线服务使用模型预热功能出现Pod事件报错

问题现象

在线服务部署成功后,服务事件中报有Pod调度失败,在线服务事件页面查看Pod事件存在Insufficient,didn't match pod affinity rules等字样。Insufficient通常表示节点资源不足(如CPU/Memory),Pod affinity rules指Pod亲和性规则要求Pod必须调度到满足特定标签的节点。

原因分析

在部署在线服务时,选择模型来源为“资源池已预热模型”时,会自动配置强亲和规则以亲和到已经预热成功的节点上。基于上述情况,可能的原因包括:

  • 确实是资源池的资源不足以部署当前服务,请检查资源池的资源配置。
  • 模型预热任务是部分成功或者预热节点数较少,当前服务的配置的实例数不足以调度到已经预热成功的节点上。
  • 请检查是否配置了强亲和规则,强制服务部署到特定节点。若指定节点资源不足,可能导致调度失败。

解决方案

  • 检查资源池的资源配置,可以考虑停用无用服务或者对资源池进行扩容等操作。停止服务操作请见《用户指南:停止服务部署》。资源池扩容操作请见扩缩容专属资源池
  • 适当增加模型预热节点数以满足当前的服务配置,详情请见《用户指南:在专属资源池添加模型预热》。
  • 按照指导排查部分预热成功的原因,详情请见《用户指南:模型预热异常或部分成功如何处理》。
  • 修改服务部署,调整自定义强亲和规则,详情请见《用户指南:部署模型为在线服务》。

相关文档