在线服务使用模型预热功能出现Pod事件报错
问题现象
在线服务部署成功后,服务事件中报有Pod调度失败,在线服务事件页面查看Pod事件存在Insufficient,didn't match pod affinity rules等字样。Insufficient通常表示节点资源不足(如CPU/Memory),Pod affinity rules指Pod亲和性规则要求Pod必须调度到满足特定标签的节点。
原因分析
在部署在线服务时,选择模型来源为“资源池已预热模型”时,会自动配置强亲和规则以亲和到已经预热成功的节点上。基于上述情况,可能的原因包括:
- 确实是资源池的资源不足以部署当前服务,请检查资源池的资源配置。
- 模型预热任务是部分成功或者预热节点数较少,当前服务的配置的实例数不足以调度到已经预热成功的节点上。
- 请检查是否配置了强亲和规则,强制服务部署到特定节点。若指定节点资源不足,可能导致调度失败。
解决方案
- 检查资源池的资源配置,可以考虑停用无用服务或者对资源池进行扩容等操作。停止服务操作请见《用户指南:停止服务部署》。资源池扩容操作请见扩缩容专属资源池。
- 适当增加模型预热节点数以满足当前的服务配置,详情请见《用户指南:在专属资源池添加模型预热》。
- 按照指导排查部分预热成功的原因,详情请见《用户指南:模型预热异常或部分成功如何处理》。
- 修改服务部署,调整自定义强亲和规则,详情请见《用户指南:部署模型为在线服务》。