更新时间:2026-06-16 GMT+08:00
分享

镜像导致在线服务部署实例异常

问题现象

在线服务的“部署”因镜像异常,状态变为“告警”“异常”

处理办法

查看日志:

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
  2. 单击具体的在线服务名称,进入在线服务的详情页面。
  3. 切换至“日志”页签,查看日志。
    • 未对接LTS时,仅展示运行中的容器日志,最多500行。
    • 对接LTS,可单击右上角...>修改服务>高级配置,勾选“日志对接LTS”,确认修改。
    图1 查看日志

调试镜像:

  1. 在服务详情页,切换至“部署”页签。
  2. 选中部署卡片,单击“升级”
    图2 升级部署
  3. 在升级页面的单元配置,不勾选“健康检查”,并将“启动命令”修改为“sleep infinity”
    图3 升级部署
  4. 单击“确认部署”

    等待部署启动。

  5. 状态变为“运行中”后,服务详情页切换至“Cloud Shell”页签。
    图4 Cloud Shell
  6. 选择修改了启动命令的单元容器,设置需要调试的环境变量,如 export VLLM_PLUGINS=ascend_vllm;输入调试启动命令和参数,查看日志输出是否符合预期,服务是否成功运行。
    图5 Cloud Shell设置环境变量
  7. 调试完成后单击“部署”切换至“部署”页签,选中部署卡片,单击“升级”
  8. 将确认修改的环境变量键值对添加到部署单元设置的环境变量中,重新配置健康检查和启动命令。
    图6 更新健康检查和启动命令
  9. 单击“确认部署”

    等待部署启动。

相关文档