查看在线服务的事件
服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。
方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。
查看在线服务事件操作
- 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,在服务列表中,您可以单击服务名称,进入服务详情页面。
- 在服务详情页面,切换到“事件”页签,查看事件信息。
服务事件记录了服务层面的运行状态和操作,而Pod事件记录了底层容器的生命周期和异常情况。
图1 查看事件
服务事件
服务事件记录了服务层面在线服务在运行过程中产生的各种事件,包括但不限于服务启动、停止、升级、故障恢复等。这些事件帮助用户了解服务的运行状态和历史操作,便于排查问题和优化服务配置。常见的服务事件请见表1。
|
事件类型 |
事件信息(“XXX”和“%s”表示占位符,以实际返回信息为准) |
解决方案 |
|---|---|---|
|
正常 |
开始部署服务,版本:%s。 Start to deploy service, version: %s. |
- |
|
异常 |
服务更新失败,服务将回滚,%s。 Update service failed, the service will be rolled back, %s. |
请联系技术支持。 |
|
正常 |
服务升级回滚中,回退版本:%s。超时时间为 %s 分钟(与部署超时时间一致)。 Rolling back service, rollback version: %s. Timeout set to %s minutes (matches deployment timeout). |
- |
|
正常 |
服务更新中,目标版本:%s。 Updating service, target version: %s. |
- |
|
正常 |
服务启动中,请等待服务部署。 Starting service, wait service deploy. |
- |
|
正常 |
服务停止中。 Stopping service. |
- |
|
正常 |
服务停止成功。 Stop service success. |
- |
|
正常 |
自动停止功能关闭。 Auto-stop disabled. |
- |
|
正常 |
自动停止功能开启,服务将在%s小时后停止。 Service will auto-stop in %s hour(s). |
- |
|
正常 |
自动停止任务触发,服务将停止。 Automatic stop task trigger. |
- |
|
异常 |
服务停止失败,%s。 Stop service failed, %s. |
请根据错误信息定位和处理问题。 |
|
正常 |
服务部署成功。当前可用实例数:%s,预期实例数:%s。 Service deployed. Available instances: %s, target instances: %s. |
- |
|
异常 |
服务启动失败,%s。 Start service failed, %s. |
启动服务失败情况较多,请参考FAQ定位和处理。 |
|
异常 |
服务部署超时,错误信息:服务部署时间超过%s分钟,设置为失败。 Service deploy timeout, error message: Service deployment time exceeds %s minutes, set failed. |
请根据错误信息定位和处理问题。 |
|
正常 |
直接删除部署【%s】实例【%s】成功,删除后部署实例个数减少,系统不会重新拉起新的实例。 The deployment [%s] instance [%s] was successfully deleted directly. The number of deployment instances decreased after deletion, and the system will not re-create a new instance. |
- |
|
异常 |
删除实例【%s】失败,原因:%s。 Delete instance [%s] fail for %s. |
请根据错误信息定位和处理问题。 |
|
正常 |
服务升级回滚成功。当前可用实例数:%s,预期实例数:%s。 Rollback service success. Available instances: %s, target instances: %s. |
- |
|
异常 |
服务升级回滚失败,当前服务状态:%s,%s。 Rollback service failed, service current status: %s, %s. |
请联系技术支持。 |
|
警告 |
部署【%s】有Pod健康检查失败。(具体原因可查看Pod事件) A pod of KubeInfer [%s] reported a k8s Unhealthy event. |
|
|
警告 |
部署【%s】有Pod镜像拉取失败,正在重试。(具体原因可查看Pod事件) A pod of KubeInfer [%s] reported a k8s BackOffPullImage event. Retrying. |
|
|
警告 |
部署【%s】有Pod容器启动失败,正在重试。(具体原因可查看Pod事件) A pod of KubeInfer [%s] reported a k8s BackOffStart event. Retrying. |
|
|
警告 |
部署【%s】有Pod调度失败,正在重试。(具体原因可查看Pod事件) A pod of KubeInfer [%s] reported a k8s FailedScheduling event. Retrying. |
调度失败事件仅代表调度器本次操作失败,不代表最终一定无法调度成功。调度器会持续尝试为Pod进行调度,直到超过服务部署时间。
|
|
警告 |
部署【%s】有Pod挂载失败,正在重试。(具体原因可查看Pod事件) A pod of KubeInfer [%s] reported a k8s FailedMount event. Retrying. |
PVC挂载需要一定时间,该错误若短时出现,可忽略。 对于使用SFS Turbo的场景,若提示挂载失败,请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联。 |
|
正常 |
【%s】手动扩缩容任务提交成功,原实例数:%s,目标实例数:%s。 Manual scaling [%s] task submitted successfully, original replicas: %s, target replicas: %s. |
- |
|
异常 |
【%s】手动扩缩容任务提交失败,错误信息:%s。 Manual scaling [%s] task submitted failed, error message: %s. |
请检查错误信息,若资源不足,释放其他资源或减少扩缩容数量。 |
|
警告 |
服务部署单元【%s】有pod模型配置加载失败,正在重试,详细信息:%s。 Service deployment unit [%s] has a pod container that failed to start load model config, retrying. detail msg: %s. |
需要根据详细的错误信息,分场景进行处理。具体请见表2。 |
|
异常 |
服务升级回滚失败,当前服务状态:XXX,请稍后重试或联系服务运维人员解决。 |
请检查错误信息,若资源不足,释放其他资源或减少扩缩容数量。 |
|
错误详细信息 |
解决方案 |
|---|---|
|
出现未知错误,请稍后重试 An unknown error has occurred. Please try again later |
稍后重试或者联系技术支持。 |
|
下载obs文件过程中遇到系统相关错误(磁盘空间不足、磁盘损坏等) A system-related error (such as disk full error, disk corruption, etc.) occurred during the OBS download process |
检查部署服务资源池的节点是否存在磁盘告警(如:磁盘压力告警等),如果有告警及时处理或者扩容。 |
|
下载obs文件过程中遇到下载异常(例如网络、权限等问题) A download error (such as network issues, permission issues, etc.) occurred during the OBS download process |
出现该问题,可能是网络波动引起的,稍后重试即可。 可能是OBS的权限、策略配置问题导致在开启本地挂载加速场景下下载OBS文件异常。 |
|
下载obs文件前检测到磁盘空间不足 Insufficient disk space detected before downloading the OBS file |
在开启本地存储加速场景下,下载OBS文件前会进行磁盘空间检查,如果磁盘空间不足以容纳OBS文件,会出现该事件信息,建议对磁盘进行扩容或者适当清理磁盘。 |
|
模型预热文件不存在 The model warmup file does not exist |
选择模型预热时启动服务过程中检查到模型预热文件不存在给出的事件信息。建议检查一下模型预热任务状态或者重新创建预热任务。 |
|
模型预热任务状态不是成功 The model warmup task status is not successful |
稍后重试或者重新创建模型预热任务。 |
|
挂载sfs turbo出现异常,请检查相关配置是否正确 An error occurred while mounting the SFS Turbo. Please check whether the related configurations are correct |
在开启本地缓存加速时,挂载turbo出现异常。请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联以及状态是否正常。 |
|
在挂载sfs turbo时检测到挂载目录访问超时,请稍后重试 A timeout was detected while accessing the mount directory when mounting the SFS Turbo. Please try again later |
在开启本地缓存加速时,挂载turbo过程中访问目录异常。请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联以及状态是否正常,将turbo修复正常后重新下发部署服务。 |
服务部署和运行过程中,关键事件支持手动/自动刷新。
Pod事件
Pod事件记录了底层容器Kubernetes集群中Pod的生命周期事件和异常情况,Pod是Kubernetes中的最小部署单元,每个在线服务部署实例通常对应一个Pod,可通过选择部署实例查看对应的Pod事件。Pod事件帮助用户了解服务实例的运行状态和异常情况。常见的Pod事件请见表3。
|
事件类型 |
事件名称 |
说明 |
解决方案 |
|---|---|---|---|
|
正常 |
SuccessfulCreate |
容器创建成功 |
不涉及 |
|
正常 |
Started |
容器启动成功 |
不涉及 |
|
正常 |
Scheduled |
Pod被成功调度到节点上 |
不涉及 |
|
正常 |
SuccessfulMountVolume |
存储卷挂载成功 |
不涉及 |
|
正常 |
Pulling |
镜像拉取中 |
不涉及 |
|
正常 |
Pulled |
镜像拉取成功 |
不涉及 |
|
正常 |
Healthy |
容器处于健康状态 |
不涉及 |
|
正常 |
Killing |
容器正在被终止 |
不涉及 |
|
告警 |
BackOffStart |
容器启动失败 |
|
|
告警 |
CrashLoopBackOff |
容器反复处于重新启动又崩溃的情况 |
|
|
告警 |
FailedPullImage |
镜像拉取失败 |
|
|
告警 |
BackOffPullImage |
镜像拉取重试失败 |
|
|
告警 |
Unhealthy |
健康检查失败 |
|
|
告警 |
FailedScheduling |
Pod暂时无法被调度到节点上 |
调度失败事件仅代表调度器本次操作失败,不代表最终一定无法调度成功。调度器会持续尝试为Pod进行调度,直到超过服务部署时间。
|
|
告警 |
FailedMount |
存储卷挂载失败 |
PVC挂载需要一定时间,该错误若短时出现,可忽略。 对于使用SFS Turbo的场景,若提示挂载失败,请在控制台“网络管理”页面检查对应的SFS Turbo是否被解除关联。 |
|
告警 |
InfersInitContainerFailed(异常事件) |
事件详细信息为:Infers init container checked failed, errcode:%s, errmsg:%s。对应于启动了推理的init container容器进行的前置检查或者操作出现的异常信息上报。 |
需要根据其中的errmsg对照表2的处理建议对应处理。 |