在线服务一直处于部署中/修改中,如何排查原因?
问题现象
部署服务后,服务一直处于部署中的状态。进入服务详情页,在“事件”页签查看服务事件,有“部署【XXX】有Pod容器启动失败”等类似报错出现。
原因分析
Pod的一些异常事件会在服务事件中上报,只显示原因概述。Pod未就绪时,服务不认为实例就绪且可用,从而导致一直处于部署中的状态。
处理方法
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
- 单击在线服务名称,进入在线服务的详情页面,切换到“部署”页签。
- 找到异常实例所在的部署,单击部署实例数的“查看详情”,进入实例详情页。
图2 查看详情
- 在服务实例详情页,单击Pod数量,右侧弹出“Pod详情页”。
图3 Pod详情
- 单击操作列的“查看事件”,切换到Pod事件页签,查看异常pod的事件信息。
Pod事件列表会展示具体的事件列表,与K8S显示相同,包含事件名称与具体的事件信息,可根据这些信息,进一步排查问题。
常见事件类型与对应的处理方法请见《用户指南》的“查看在线服务的事件”章节。
图4 Pod事件