查看Notebook实例事件
在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也可以设置间隔30秒,1分钟,5分钟自动刷新事件。
查看Notebook实例事件的方法
单击Notebook名称,进入Notebook详情页,单击“事件”。
Notebook实例事件列表
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
Scheduled |
实例被调度成功 |
提示 |
正常事件,无需处理。 |
|
PullingImage |
正在拉取镜像 |
提示 |
正常事件,无需处理。 |
|
PulledImage |
镜像拉取完毕 |
提示 |
正常事件,无需处理。 |
|
NotebookHealthy |
实例运行中,处于健康状态 |
重要 |
正常事件,无需处理。 |
|
CreateNotebookFailed |
创建实例失败 |
紧急 |
内部服务错误,建议提工单,联系运维人员协助处理。 |
|
PullImageFailed |
镜像拉取失败 |
紧急 |
检查实例创建时所选镜像是否存在,如不存在,重新选择镜像进行实例创建。如存在,建议提工单,联系运维人员协助处理。 |
|
FailedCreate |
Failed to create notebook container. Please contact SRE to check node {node_name} |
紧急 |
内部服务错误,建议提工单,联系运维人员协助处理。 |
|
CreateContainerError |
Failed to create container. Please contact SRE to check node {node_name} |
紧急 |
内部服务错误,建议提工单,联系运维人员协助处理。 |
|
FailedAttachVolume |
Failed to attach volume. Please contact SRE to check node {node_name} |
重要 |
内部服务错误,建议提工单,联系运维人员协助处理。 |
|
MountVolumeFailed |
Mount volume failed; Check whether the DEW secret is correct if the instance cannot change to running in five minutes |
紧急 |
等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用对象存储服务OBS时选择的认证信息是否正确。 |
|
Mount volume failed; Check if vpc of sfs-turbo is interconnected if the instance cannot change to running in five minutes |
紧急 |
等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用的弹性文件服务SFS是否完成专属资源池的VPC打通。具体操作,请参见专属资源池VPC打通。 |
|
|
Mount volume failed; Please contact SRE to check node {node_name} if the instance cannot change to running in five minutes |
紧急 |
等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,建议提工单,联系运维人员协助处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
StopNotebook |
实例停止 |
重要 |
正常事件,无需处理。 |
|
StopNotebookResourceIdle |
实例因资源空闲即将自动停止或实例因资源空闲自动停止 |
重要 |
正常事件,无需处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
UpdateName |
更新实例名称 |
提示 |
正常事件,无需处理。 |
|
UpdateDescription |
更新实例描述 |
提示 |
正常事件,无需处理。 |
|
UpdateFlavor |
更新实例规格 |
重要 |
正常事件,无需处理。 |
|
UpdateImage |
更新实例镜像 |
重要 |
正常事件,无需处理。 |
|
UpdateStorageSize |
实例存储正在扩容 (User %s is updating storage size from %sGB to %sGB) |
重要 |
正常事件,无需处理。 |
|
实例扩容完成 (User %s updated storage size successfully) |
重要 |
正常事件,无需处理。 |
|
|
UpdateKeyPair |
配置实例密钥对 (User %s updated the instance keypair to "{%s}") |
重要 |
正常事件,无需处理。 |
|
更新实例密钥对 (User %s updated the instance keypair from %s to %s) |
重要 |
正常事件,无需处理。 |
|
|
UpdateHook |
更新自定义脚本 |
重要 |
正常事件,无需处理。 |
|
UpdateStorageSizeFailed |
资源售罄引起的实例存储扩容失败 (The EVS disk is sold out) |
紧急 |
进入需扩容实例详情页面,选择存储配置页签,添加动态存储或者扩展存储实现扩容。 |
|
内部错误引起的实例扩容失败 (The EVS disk size updated failed. Operations and maintenance personnel are handling the problem) |
紧急 |
内部服务异常,建议提工单,联系运维人员协助处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
SaveImage |
保存镜像成功 |
重要 |
正常事件,无需处理。 |
|
SavedImageFailed |
D进程引起的保存镜像失败 (There are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes) |
紧急 |
执行ps -aux命令查找所有D状态进程,执行kill -9 <PID>终止所有D状态进程后重新执行镜像保存操作。 |
|
镜像大小引起的保存镜像失败 (Container size %dG is greater than threshold %dG) |
紧急 |
删除实例中/home/ma-user/work/目录之外的其他无用目录文件,减小容器镜像大小至事件描述中阈值后重试。 |
|
|
层数限制引起的保存镜像失败 (Too many layers in your image) |
紧急 |
启动实例使用的镜像层数超过125,重新制作实例启动镜像,制作过程中可通过合并命令和分阶段构建的方式减少镜像层数。 |
|
|
任务超时引起的保存镜像失败 (Operations personnel are handling the problem) |
紧急 |
网络或者依赖服务异常导致任务超时,建议提工单,联系运维人员协助处理。 |
|
|
SWR故障引起的保存镜像失败 (Failed to save the image because the SWR service is faulty) |
紧急 |
SWR服务异常,建议提工单,联系运维人员协助处理。 |
|
|
CheckImageSize |
The notebook container image size is {image_size}G. {image_size} 表示镜像大小,为可变变量。 |
提示 |
正常事件,无需处理。 |
|
CheckImageLayer |
The number of original notebook image layers is {layer_number}. {layer_number} 表示镜像层数,为可变变量。 |
提示 |
正常事件,无需处理。 |
|
ContainerCommitStarted |
Start to commit notebook container. |
提示 |
正常事件,无需处理。 |
|
ContainerCommitSuccess |
Notebook container commit successfully. |
提示 |
正常事件,无需处理。 |
|
ImagePushStarted |
Start to push notebook image. |
提示 |
正常事件,无需处理。 |
|
ImagePushSuccess |
Notebook image push successfully. |
提示 |
正常事件,无需处理。 |
|
ContainerCommitFailed |
Failed to commit notebook container. Please contact SRE to check node {node_name}. {node_name}表示节点名称,为可变变量,一般为ip形式,如:192.168.225.161 |
提示 |
节点异常或内部服务错误,建议提工单,联系运维人员协助处理。 |
|
ImagePushFailed |
Failed to push Notebook image. Please contact SRE to check node {node_name}. |
提示 |
推送镜像失败,可重试。如重试无法解决,建议提工单,联系运维人员协助处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
NotebookUnhealthy |
实例处于不健康状态 |
紧急 |
在实例中启动调试任务,如任务占用CPU,Memory或者IO资源过高,可能触发此事件,实例负载降低后可自动恢复。间隔一定时间后刷新页面,如新增NotebookHealthy事件,表示实例状态已恢复正常,无需处理。如长时间无法恢复,请提工单,联系运维人员进行协助处理。 |
|
OutOfMemory |
实例占用内存超过规格申请内存导致被驱逐 |
紧急 |
实例中进程占用内存超过实例规格申请内存,K8s机制会触发此事件,并重启实例。重启完成后实例状态刷新为正常,后续实例使用过程中,需避免高内存占用任务。 |
|
JupyterProcessKilled |
Jupyter进程异常终止 |
紧急 |
实例中误操作停止jupyter进程或者实例对应容器未知错误,可能触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。 |
|
CacheVolumeExceedQuota |
/cache目录文件大小超过最大限制 |
紧急 |
/cache目录文件超过对应规格分配最大限制会触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。后续实例使用过程中,需关注/cache目录文件大小,此目录分配空间和实例规格对应关系可参考在ModelArts的Notebook中不同规格资源/cache目录的大小是多少。 |
|
NotebookHealthy |
实例从异常状态恢复至正常状态 |
重要 |
正常事件,无需处理。 |
|
EVSSoldOut |
EVS存储售罄 |
紧急 |
创建Notebook时, 存储类型选择云硬盘EVS,如云硬盘EVS售罄,可能触发此事件。建议切换存储类型至对象存储服务OBS或并行文件系统PFS等类型。如需继续使用云硬盘EVS,请提工单,联系运维人员进行扩容处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
DynamicMountStorage |
挂载OBS存储 |
重要 |
正常事件,无需处理。 |
|
DynamicUnmountStorage |
卸载OBS存储 |
重要 |
正常事件,无需处理。 |
|
事件名称 |
事件描述 |
事件级别 |
处理建议 |
|---|---|---|---|
|
RefreshCredentialsFailed |
用户鉴权失败 |
紧急 |
正常事件,无需处理。 |