服务部署、启动、升级和修改时,资源不足如何处理?
问题现象
启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are available for the selected specification.)
原因分析
- 实例配置的规格过大,CPU或者内存剩余资源不足;("insufficient CPU" / "insufficient memory")
- 模型需要的磁盘空间大,磁盘空间不足;("x node(s) had taint {node.kubernetes.io/disk-pressure: }" / "No space")
解决方法
在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。
如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决:
- 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
- 如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署;
- 如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池。
- 如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。
如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。