更新时间:2026-06-16 GMT+08:00
镜像导致在线服务部署实例异常
问题现象
在线服务的“部署”因镜像异常,状态变为“告警”或“异常”。
处理办法
查看日志:
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
- 单击具体的在线服务名称,进入在线服务的详情页面。
- 切换至“日志”页签,查看日志。
- 未对接LTS时,仅展示运行中的容器日志,最多500行。
- 对接LTS,可单击右上角...>修改服务>高级配置,勾选“日志对接LTS”,确认修改。
图1 查看日志
调试镜像:
- 在服务详情页,切换至“部署”页签。
- 选中部署卡片,单击“升级”。 图2 升级部署
- 在升级页面的单元配置,不勾选“健康检查”,并将“启动命令”修改为“sleep infinity”。 图3 升级部署
- 单击“确认部署”。
等待部署启动。
- 状态变为“运行中”后,服务详情页切换至“Cloud Shell”页签。 图4 Cloud Shell
- 选择修改了启动命令的单元容器,设置需要调试的环境变量,如 export VLLM_PLUGINS=ascend_vllm;输入调试启动命令和参数,查看日志输出是否符合预期,服务是否成功运行。 图5 Cloud Shell设置环境变量
- 调试完成后单击“部署”切换至“部署”页签,选中部署卡片,单击“升级”。
- 将确认修改的环境变量键值对添加到部署单元设置的环境变量中,重新配置健康检查和启动命令。 图6 更新健康检查和启动命令
- 单击“确认部署”。
等待部署启动。
父主题: 服务部署