更新时间:2026-02-09 GMT+08:00
分享

查看Notebook实例事件

在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也可以设置间隔30秒,1分钟,5分钟自动刷新事件。

查看Notebook实例事件的方法

单击Notebook名称,进入Notebook详情页,单击“事件”

Notebook实例事件列表

表1 实例创建过程的事件列表

事件名称

事件描述

事件级别

处理建议

Scheduled

实例被调度成功

提示

正常事件,无需处理。

PullingImage

正在拉取镜像

提示

正常事件,无需处理。

PulledImage

镜像拉取完毕

提示

正常事件,无需处理。

NotebookHealthy

实例运行中,处于健康状态

重要

正常事件,无需处理。

CreateNotebookFailed

创建实例失败

紧急

内部服务错误,建议提工单,联系运维人员协助处理。

PullImageFailed

镜像拉取失败

紧急

检查实例创建时所选镜像是否存在,如不存在,重新选择镜像进行实例创建。如存在,建议提工单,联系运维人员协助处理。

FailedCreate

Failed to create notebook container. Please contact SRE to check node {node_name}

紧急

内部服务错误,建议提工单,联系运维人员协助处理。

CreateContainerError

Failed to create container. Please contact SRE to check node {node_name}

紧急

内部服务错误,建议提工单,联系运维人员协助处理。

FailedAttachVolume

Failed to attach volume. Please contact SRE to check node {node_name}

重要

内部服务错误,建议提工单,联系运维人员协助处理。

MountVolumeFailed

Mount volume failed; Check whether the DEW secret is correct if the instance cannot change to running in five minutes

紧急

等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用对象存储服务OBS时选择的认证信息是否正确。

Mount volume failed; Check if vpc of sfs-turbo is interconnected if the instance cannot change to running in five minutes

紧急

等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用的弹性文件服务SFS是否完成专属资源池的VPC打通。具体操作,请参见专属资源池VPC打通

Mount volume failed; Please contact SRE to check node {node_name} if the instance cannot change to running in five minutes

紧急

等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,建议提工单,联系运维人员协助处理。

表2 实例停止过程的事件列表

事件名称

事件描述

事件级别

处理建议

StopNotebook

实例停止

重要

正常事件,无需处理。

StopNotebookResourceIdle

实例因资源空闲即将自动停止或实例因资源空闲自动停止

重要

正常事件,无需处理。

表3 更新实例过程的事件列表

事件名称

事件描述

事件级别

处理建议

UpdateName

更新实例名称

提示

正常事件,无需处理。

UpdateDescription

更新实例描述

提示

正常事件,无需处理。

UpdateFlavor

更新实例规格

重要

正常事件,无需处理。

UpdateImage

更新实例镜像

重要

正常事件,无需处理。

UpdateStorageSize

实例存储正在扩容

(User %s is updating storage size from %sGB to %sGB)

重要

正常事件,无需处理。

实例扩容完成

(User %s updated storage size successfully)

重要

正常事件,无需处理。

UpdateKeyPair

配置实例密钥对

(User %s updated the instance keypair to "{%s}")

重要

正常事件,无需处理。

更新实例密钥对

(User %s updated the instance keypair from %s to %s)

重要

正常事件,无需处理。

UpdateHook

更新自定义脚本

重要

正常事件,无需处理。

UpdateStorageSizeFailed

资源售罄引起的实例存储扩容失败

(The EVS disk is sold out)

紧急

进入需扩容实例详情页面,选择存储配置页签,添加动态存储或者扩展存储实现扩容。

内部错误引起的实例扩容失败

(The EVS disk size updated failed. Operations and maintenance personnel are handling the problem)

紧急

内部服务异常,建议提工单,联系运维人员协助处理。

表4 镜像保存过程中的事件列表

事件名称

事件描述

事件级别

处理建议

SaveImage

保存镜像成功

重要

正常事件,无需处理。

SavedImageFailed

D进程引起的保存镜像失败

(There are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes)

紧急

执行ps -aux命令查找所有D状态进程,执行kill -9 <PID>终止所有D状态进程后重新执行镜像保存操作。

镜像大小引起的保存镜像失败

(Container size %dG is greater than threshold %dG)

紧急

删除实例中/home/ma-user/work/目录之外的其他无用目录文件,减小容器镜像大小至事件描述中阈值后重试。

层数限制引起的保存镜像失败

(Too many layers in your image)

紧急

启动实例使用的镜像层数超过125,重新制作实例启动镜像,制作过程中可通过合并命令和分阶段构建的方式减少镜像层数。

任务超时引起的保存镜像失败

(Operations personnel are handling the problem)

紧急

网络或者依赖服务异常导致任务超时,建议提工单,联系运维人员协助处理。

SWR故障引起的保存镜像失败

(Failed to save the image because the SWR service is faulty)

紧急

SWR服务异常,建议提工单,联系运维人员协助处理。

CheckImageSize

The notebook container image size is {image_size}G.

{image_size} 表示镜像大小,为可变变量。

提示

正常事件,无需处理。

CheckImageLayer

The number of original notebook image layers is {layer_number}.

{layer_number} 表示镜像层数,为可变变量。

提示

正常事件,无需处理。

ContainerCommitStarted

Start to commit notebook container.

提示

正常事件,无需处理。

ContainerCommitSuccess

Notebook container commit successfully.

提示

正常事件,无需处理。

ImagePushStarted

Start to push notebook image.

提示

正常事件,无需处理。

ImagePushSuccess

Notebook image push successfully.

提示

正常事件,无需处理。

ContainerCommitFailed

Failed to commit notebook container. Please contact SRE to check node {node_name}.

{node_name}表示节点名称,为可变变量,一般为ip形式,如:192.168.225.161

提示

节点异常或内部服务错误,建议提工单,联系运维人员协助处理。

ImagePushFailed

Failed to push Notebook image. Please contact SRE to check node {node_name}.

提示

推送镜像失败,可重试。如重试无法解决,建议提工单,联系运维人员协助处理。

表5 实例运行过程的事件列表

事件名称

事件描述

事件级别

处理建议

NotebookUnhealthy

实例处于不健康状态

紧急

在实例中启动调试任务,如任务占用CPU,Memory或者IO资源过高,可能触发此事件,实例负载降低后可自动恢复。间隔一定时间后刷新页面,如新增NotebookHealthy事件,表示实例状态已恢复正常,无需处理。如长时间无法恢复,请提工单,联系运维人员进行协助处理。

OutOfMemory

实例占用内存超过规格申请内存导致被驱逐

紧急

实例中进程占用内存超过实例规格申请内存,K8s机制会触发此事件,并重启实例。重启完成后实例状态刷新为正常,后续实例使用过程中,需避免高内存占用任务。

JupyterProcessKilled

Jupyter进程异常终止

紧急

实例中误操作停止jupyter进程或者实例对应容器未知错误,可能触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。

CacheVolumeExceedQuota

/cache目录文件大小超过最大限制

紧急

/cache目录文件超过对应规格分配最大限制会触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。后续实例使用过程中,需关注/cache目录文件大小,此目录分配空间和实例规格对应关系可参考在ModelArts的Notebook中不同规格资源/cache目录的大小是多少

NotebookHealthy

实例从异常状态恢复至正常状态

重要

正常事件,无需处理。

EVSSoldOut

EVS存储售罄

紧急

创建Notebook时, 存储类型选择云硬盘EVS,如云硬盘EVS售罄,可能触发此事件。建议切换存储类型至对象存储服务OBS或并行文件系统PFS等类型。如需继续使用云硬盘EVS,请提工单,联系运维人员进行扩容处理。

表6 OBS动态挂载产生的事件列表

事件名称

事件描述

事件级别

处理建议

DynamicMountStorage

挂载OBS存储

重要

正常事件,无需处理。

DynamicUnmountStorage

卸载OBS存储

重要

正常事件,无需处理。

表7 用户侧触发的事件

事件名称

事件描述

事件级别

处理建议

RefreshCredentialsFailed

用户鉴权失败

紧急

正常事件,无需处理。

相关文档