文档首页/ AI开发平台ModelArts/ 故障排除/ 推理部署/ 服务部署/ 服务部署、启动、升级和修改时,资源不足如何处理?
更新时间:2024-10-30 GMT+08:00

服务部署、启动、升级和修改时,资源不足如何处理?

问题现象

启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are available for the selected specification.)

图1 资源不足,服务调度失败

原因分析

  • 实例配置的规格过大,CPU或者内存剩余资源不足;("insufficient CPU" / "insufficient memory")
  • 模型需要的磁盘空间大,磁盘空间不足;("x node(s) had taint {node.kubernetes.io/disk-pressure: }" / "No space")

解决方法

在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。

如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决:

  • 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
  • 如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署;
  • 如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池
  • 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。

    如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。