更新时间:2026-02-05 GMT+08:00
分享

查看在线服务的事件

服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。

方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。

查看在线服务事件操作

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,在服务列表中,您可以单击服务名称,进入服务详情页面。
  2. 在服务详情页面,切换到“事件”页签,查看事件信息。

    事件类型分为服务事件Pod事件,可通过切换页签分别查看。

    服务事件记录了服务层面的运行状态和操作,而Pod事件记录了底层容器的生命周期和异常情况。

    图1 查看事件

服务事件

服务事件记录了服务层面在线服务在运行过程中产生的各种事件,包括但不限于服务启动、停止、升级、故障恢复等。这些事件帮助用户了解服务的运行状态和历史操作,便于排查问题和优化服务配置。常见的服务事件请见表1

表1 服务事件

事件类型

事件信息(“XXX”和“%s”表示占位符,以实际返回信息为准)

解决方案

正常

开始部署服务,版本:%s。

Start to deploy service, version: %s.

-

异常

服务更新失败,服务将回滚,%s。

Update service failed, the service will be rolled back, %s.

请联系技术支持。

正常

服务升级回滚中,回退版本:%s。超时时间为 %s 分钟(与部署超时时间一致)。

Rolling back service, rollback version: %s. Timeout set to %s minutes (matches deployment timeout).

-

正常

服务更新中,目标版本:%s。

Updating service, target version: %s.

-

正常

服务启动中,请等待服务部署。

Starting service, wait service deploy.

-

正常

服务停止中。

Stopping service.

-

正常

服务停止成功。

Stop service success.

-

正常

自动停止功能关闭。

Auto-stop disabled.

-

正常

自动停止功能开启,服务将在%s小时后停止。

Service will auto-stop in %s hour(s).

-

正常

自动停止任务触发,服务将停止。

Automatic stop task trigger.

-

异常

服务停止失败,%s。

Stop service failed, %s.

请根据错误信息定位和处理问题。

正常

服务部署成功。当前可用实例数:%s,预期实例数:%s。

Service deployed. Available instances: %s, target instances: %s.

-

异常

服务启动失败,%s。

Start service failed, %s.

启动服务失败情况较多,请参考FAQ定位和处理。

异常

服务部署超时,错误信息:服务部署时间超过%s分钟,设置为失败。

Service deploy timeout, error message: Service deployment time exceeds %s minutes, set failed.

请根据错误信息定位和处理问题。

正常

直接删除部署【%s】实例【%s】成功,删除后部署实例个数减少,系统不会重新拉起新的实例。

The deployment [%s] instance [%s] was successfully deleted directly. The number of deployment instances decreased after deletion, and the system will not re-create a new instance.

-

异常

删除实例【%s】失败,原因:%s。

Delete instance [%s] fail for %s.

请根据错误信息定位和处理问题。

正常

服务升级回滚成功。当前可用实例数:%s,预期实例数:%s。

Rollback service success. Available instances: %s, target instances: %s.

-

异常

服务升级回滚失败,当前服务状态:%s,%s。

Rollback service failed, service current status: %s, %s.

请联系技术支持。

警告

部署【%s】有Pod健康检查失败。(具体原因可查看Pod事件)

A pod of KubeInfer [%s] reported a k8s Unhealthy event.

  • 服务部署/修改过程中,启动探针检查失败是正常且普遍的现象,无需特殊关注。如果一直无法通过,说明镜像无法拉起服务,请结合日志定位。
  • 服务运行过程中,若遇到芯片、网络故障等,可能导致就绪探针和存活探针检查失败,重试次数超过阈值后将导致Pod重启。

警告

部署【%s】有Pod镜像拉取失败,正在重试。(具体原因可查看Pod事件)

A pod of KubeInfer [%s] reported a k8s BackOffPullImage event. Retrying.

  • 指定的镜像可能不存在或已被删除,请检查所选镜像是否存在。
  • 若使用API调用方式创建服务,请检查所填镜像地址是否正确,当前账号是否有权限访问。

警告

部署【%s】有Pod容器启动失败,正在重试。(具体原因可查看Pod事件)

A pod of KubeInfer [%s] reported a k8s BackOffStart event. Retrying.

  • 请检查镜像的架构是否对应资源池架构,如ARM架构的资源池需要使用ARM的镜像。
  • 请检查配置的资源规格是否合理,是否足够镜像启动。若设置了模型挂载,如挂载权重场景,内存必须大于挂载文件总大小。
  • 请检查启动命令配置是否有误。
  • 请检查镜像本身是否能够正常拉起并工作。

警告

部署【%s】有Pod调度失败,正在重试。(具体原因可查看Pod事件)

A pod of KubeInfer [%s] reported a k8s FailedScheduling event. Retrying.

调度失败事件仅代表调度器本次操作失败,不代表最终一定无法调度成功。调度器会持续尝试为Pod进行调度,直到超过服务部署时间。

  • 请检查节点资源是否充足。若Pod事件中提示有 insufficient cpu/memory 等字样,说明现有节点资源无法满足需求。
  • 请检查节点是否有污点。若Pod事件中提示有 taints 相关字样,说明节点存在污点。
  • 请检查节点上是否有过多的Pod。若Pod事件中提示有 too many pods 相关字样,说明节点负载Pod过多,需要停止一些服务。
  • 请检查模型预热任务的状态。在部署在线服务时,选择模型来源为“资源池已预热模型”时,会自动配置强亲和规则要求Pod必须调度到已经预热成功的节点上。可能存在如下原因:
    • 用户设置的模型预热节点数较少,不足以调度当前配置的实例数,可以尝试对模型预热任务增加节点数以满足当前的服务配置。
    • 除了模型预热节点数不足外,还可能存在模型预热成功的节点上资源不足以调度当前配置的服务的情况。可以考虑停用无用服务或者对资源池进行扩容等操作。停止服务部署操作请见停止服务部署。资源池扩容操作请见扩缩容专属资源池
  • 请检查亲和调度配置。若配置了亲和调度,可能存在以下原因:
    • 设置了亲和到某些节点,且要求强亲和,而所选节点的可用资源无法满足Pod的需求,或存在污点,Pod无法被调度。
    • 设置了反亲和到某些节点,且要求强亲和,而所选节点以外的节点的可用资源无法满足Pod的需求,或存在污点,Pod无法被调度。

警告

部署【%s】有Pod挂载失败,正在重试。(具体原因可查看Pod事件)

A pod of KubeInfer [%s] reported a k8s FailedMount event. Retrying.

PVC挂载需要一定时间,该错误若短时出现,可忽略。

对于使用SFS Turbo的场景,若提示挂载失败,请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联。

正常

【%s】手动扩缩容任务提交成功,原实例数:%s,目标实例数:%s。

Manual scaling [%s] task submitted successfully, original replicas: %s, target replicas: %s.

-

异常

【%s】手动扩缩容任务提交失败,错误信息:%s。

Manual scaling [%s] task submitted failed, error message: %s.

请检查错误信息,若资源不足,释放其他资源或减少扩缩容数量。

警告

服务部署单元【%s】有pod模型配置加载失败,正在重试,详细信息:%s。

Service deployment unit [%s] has a pod container that failed to start load model config, retrying. detail msg: %s.

需要根据详细的错误信息,分场景进行处理。具体请见表2

异常

服务升级回滚失败,当前服务状态:XXX,请稍后重试或联系服务运维人员解决。

请检查错误信息,若资源不足,释放其他资源或减少扩缩容数量。

表2 模式配置加载失败详细信息及处理应对

错误详细信息

解决方案

出现未知错误,请稍后重试

An unknown error has occurred. Please try again later

稍后重试或者联系技术支持。

下载obs文件过程中遇到系统相关错误(磁盘空间不足、磁盘损坏等)

A system-related error (such as disk full error, disk corruption, etc.) occurred during the OBS download process

检查部署服务资源池的节点是否存在磁盘告警(如:磁盘压力告警等),如果有告警及时处理或者扩容。

下载obs文件过程中遇到下载异常(例如网络、权限等问题)

A download error (such as network issues, permission issues, etc.) occurred during the OBS download process

出现该问题,可能是网络波动引起的,稍后重试即可。

可能是OBS的权限、策略配置问题导致在开启本地挂载加速场景下下载OBS文件异常。

下载obs文件前检测到磁盘空间不足

Insufficient disk space detected before downloading the OBS file

在开启本地存储加速场景下,下载OBS文件前会进行磁盘空间检查,如果磁盘空间不足以容纳OBS文件,会出现该事件信息,建议对磁盘进行扩容或者适当清理磁盘。

模型预热文件不存在

The model warmup file does not exist

选择模型预热时启动服务过程中检查到模型预热文件不存在给出的事件信息。建议检查一下模型预热任务状态或者重新创建预热任务。

模型预热任务状态不是成功

The model warmup task status is not successful

稍后重试或者重新创建模型预热任务。

挂载sfs turbo出现异常,请检查相关配置是否正确

An error occurred while mounting the SFS Turbo. Please check whether the related configurations are correct

在开启本地缓存加速时,挂载turbo出现异常。请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联以及状态是否正常。

在挂载sfs turbo时检测到挂载目录访问超时,请稍后重试

A timeout was detected while accessing the mount directory when mounting the SFS Turbo. Please try again later

在开启本地缓存加速时,挂载turbo过程中访问目录异常。请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联以及状态是否正常,将turbo修复正常后重新下发部署服务。

服务部署和运行过程中,关键事件支持手动/自动刷新。

Pod事件

Pod事件记录了底层容器Kubernetes集群中Pod的生命周期事件和异常情况,Pod是Kubernetes中的最小部署单元,每个在线服务部署实例通常对应一个Pod,可通过选择部署实例查看对应的Pod事件。Pod事件帮助用户了解服务实例的运行状态和异常情况。常见的Pod事件请见表3

表3 Pod事件

事件类型

事件名称

说明

解决方案

正常

SuccessfulCreate

容器创建成功

不涉及

正常

Started

容器启动成功

不涉及

正常

Scheduled

Pod被成功调度到节点上

不涉及

正常

SuccessfulMountVolume

存储卷挂载成功

不涉及

正常

Pulling

镜像拉取中

不涉及

正常

Pulled

镜像拉取成功

不涉及

正常

Healthy

容器处于健康状态

不涉及

正常

Killing

容器正在被终止

不涉及

告警

BackOffStart

容器启动失败

  • 请检查镜像的架构是否对应资源池架构,如ARM架构的资源池需要使用ARM的镜像。
  • 请检查配置的资源规格是否合理,是否足够镜像启动。若设置了模型挂载,如挂载权重场景,内存必须大于挂载文件总大小。
  • 请检查启动命令配置是否有误。
  • 请检查镜像本身是否能够正常拉起并工作。

告警

CrashLoopBackOff

容器反复处于重新启动又崩溃的情况

告警

FailedPullImage

镜像拉取失败

  • 指定的镜像可能不存在或已被删除,请检查所选镜像是否存在。
  • 若使用API调用方式创建服务,请检查所填镜像地址是否正确,当前账号是否有权限访问。

告警

BackOffPullImage

镜像拉取重试失败

告警

Unhealthy

健康检查失败

  • 服务部署/修改过程中,启动探针检查失败是正常且普遍的现象,无需特殊关注。如果一直无法通过,说明镜像无法拉起服务,请结合日志定位。
  • 服务运行过程中,若遇到芯片、网络故障等,可能导致就绪探针和存活探针检查失败,重试次数超过阈值后将导致Pod重启。

告警

FailedScheduling

Pod暂时无法被调度到节点上

调度失败事件仅代表调度器本次操作失败,不代表最终一定无法调度成功。调度器会持续尝试为Pod进行调度,直到超过服务部署时间。

  • 请检查节点资源是否充足。若Pod事件中提示有 insufficient cpu/memory 等字样,说明现有节点资源无法满足需求。
  • 请检查节点是否有污点。若Pod事件中提示有 taints 相关字样,说明节点存在污点。
  • 请检查亲和调度配置。若配置了亲和调度,可能存在以下原因:
    • 设置了亲和到某些节点,且要求强亲和,而所选节点的可用资源无法满足Pod的需求,或存在污点,Pod无法被调度。
    • 设置了反亲和到某些节点,且要求强亲和,而所选节点以外的节点的可用资源无法满足Pod的需求,或存在污点,Pod无法被调度。

告警

FailedMount

存储卷挂载失败

PVC挂载需要一定时间,该错误若短时出现,可忽略。

对于使用SFS Turbo的场景,若提示挂载失败,请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联。

告警

InfersInitContainerFailed(异常事件)

事件详细信息为:Infers init container checked failed, errcode:%s, errmsg:%s。对应于启动了推理的init container容器进行的前置检查或者操作出现的异常信息上报。

需要根据其中的errmsg对照表2的处理建议对应处理。

相关文档