更新时间:2025-04-29 GMT+08:00
服务启动失败
问题现象
当服务事件中出现如下事件时,表示容器启动失败。
图1 服务启动失败

原因分析
服务启动失败的原因比较多样,可能有如下几种情况:
镜像中配置的端口错误
模型可以正常启动,但是因为镜像中启用的端口非8080,或者镜像启用的端口与创建模型时配置的端口不一致,导致部署服务时register-agent无法与模型通信,超过一定时间后(最长20分钟)认为模型启动失败。
需要检查两个地方:自定义镜像中的代码开放的端口和创建模型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息,则ModelArts会默认监听8080端口,即镜像代码中启用的端口必须是8080。
图2 自定义镜像中的代码开放的端口

图3 创建模型界面上配置的端口

健康检查配置有问题
镜像如果配置了健康检查,服务启动失败,从以下两个方面进行排查:
- 健康检查端口是否可以正常工作
自定义镜像中配置了健康检查,需要在测试镜像时,同步测试健康检查接口是否可以正常工作,具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。
内存不足
服务启动失败,提示内存不足,请参考内存不足如何处理?
父主题: 服务部署