查看Notebook实例事件
在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也可以设置间隔30秒,1分钟,5分钟自动刷新事件。
查看Notebook实例事件的方法
单击Notebook名称,进入Notebook详情页,单击“事件”。
Notebook实例事件列表
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
Scheduled | 实例被调度成功 | 提示 | 正常事件,无需处理。 |
PullingImage | 正在拉取镜像 | 提示 | 正常事件,无需处理。 |
PulledImage | 镜像拉取完毕 | 提示 | 正常事件,无需处理。 |
NotebookHealthy | 实例运行中,处于健康状态 | 重要 | 正常事件,无需处理。 |
CreateNotebookFailed | 创建实例失败 | 紧急 | 内部服务错误,建议提工单,联系运维人员协助处理。 |
PullImageFailed | 镜像拉取失败 | 紧急 | 检查实例创建时所选镜像是否存在,如不存在,重新选择镜像进行实例创建。如存在,建议提工单,联系运维人员协助处理。 |
FailedCreate | Failed to create notebook container. Please contact SRE to check node {node_name} | 紧急 | 内部服务错误,建议提工单,联系运维人员协助处理。 |
CreateContainerError | Failed to create container. Please contact SRE to check node {node_name} | 紧急 | 内部服务错误,建议提工单,联系运维人员协助处理。 |
FailedAttachVolume | Failed to attach volume. Please contact SRE to check node {node_name} | 重要 | 内部服务错误,建议提工单,联系运维人员协助处理。 |
MountVolumeFailed | Mount volume failed; Check whether the DEW secret is correct if the instance cannot change to running in five minutes | 紧急 | 等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用对象存储服务OBS时选择的认证信息是否正确。 |
Mount volume failed; Check if vpc of sfs-turbo is interconnected if the instance cannot change to running in five minutes | 紧急 | 等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,请检查使用的弹性文件服务SFS是否完成专属资源池的VPC打通。具体操作,请参见专属资源池VPC打通。 | |
Mount volume failed; Please contact SRE to check node {node_name} if the instance cannot change to running in five minutes | 紧急 | 等待5-10分钟,观察实例状态是否刷新至运行中,如正常刷新无需处理。如未刷新,建议提工单,联系运维人员协助处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
StopNotebook | 实例停止 | 重要 | 正常事件,无需处理。 |
StopNotebookResourceIdle | 实例因资源空闲即将自动停止或实例因资源空闲自动停止 | 重要 | 正常事件,无需处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
UpdateName | 更新实例名称 | 提示 | 正常事件,无需处理。 |
UpdateDescription | 更新实例描述 | 提示 | 正常事件,无需处理。 |
UpdateFlavor | 更新实例规格 | 重要 | 正常事件,无需处理。 |
UpdateImage | 更新实例镜像 | 重要 | 正常事件,无需处理。 |
UpdateStorageSize | 实例存储正在扩容 (User %s is updating storage size from %sGB to %sGB) | 重要 | 正常事件,无需处理。 |
实例扩容完成 (User %s updated storage size successfully) | 重要 | 正常事件,无需处理。 | |
UpdateKeyPair | 配置实例密钥对 (User %s updated the instance keypair to "{%s}") | 重要 | 正常事件,无需处理。 |
更新实例密钥对 (User %s updated the instance keypair from %s to %s) | 重要 | 正常事件,无需处理。 | |
UpdateHook | 更新自定义脚本 | 重要 | 正常事件,无需处理。 |
UpdateStorageSizeFailed | 资源售罄引起的实例存储扩容失败 (The EVS disk is sold out) | 紧急 | 进入需扩容实例详情页面,选择存储配置页签,添加动态存储或者扩展存储实现扩容。 |
内部错误引起的实例扩容失败 (The EVS disk size updated failed. Operations and maintenance personnel are handling the problem) | 紧急 | 内部服务异常,建议提工单,联系运维人员协助处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
SaveImage | 保存镜像成功 | 重要 | 正常事件,无需处理。 |
SavedImageFailed | D进程引起的保存镜像失败 (There are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes) | 紧急 | 执行ps -aux命令查找所有D状态进程,执行kill -9 <PID>终止所有D状态进程后重新执行镜像保存操作。 |
镜像大小引起的保存镜像失败 (Container size %dG is greater than threshold %dG) | 紧急 | 删除实例中/home/ma-user/work/目录之外的其他无用目录文件,减小容器镜像大小至事件描述中阈值后重试。 | |
层数限制引起的保存镜像失败 (Too many layers in your image) | 紧急 | 启动实例使用的镜像层数超过125,重新制作实例启动镜像,制作过程中可通过合并命令和分阶段构建的方式减少镜像层数。 | |
任务超时引起的保存镜像失败 (Operations personnel are handling the problem) | 紧急 | 网络或者依赖服务异常导致任务超时,建议提工单,联系运维人员协助处理。 | |
SWR故障引起的保存镜像失败 (Failed to save the image because the SWR service is faulty) | 紧急 | SWR服务异常,建议提工单,联系运维人员协助处理。 | |
CheckImageSize | The notebook container image size is {image_size}G. {image_size} 表示镜像大小,为可变变量。 | 提示 | 正常事件,无需处理。 |
CheckImageLayer | The number of original notebook image layers is {layer_number}. {layer_number} 表示镜像层数,为可变变量。 | 提示 | 正常事件,无需处理。 |
ContainerCommitStarted | Start to commit notebook container. | 提示 | 正常事件,无需处理。 |
ContainerCommitSuccess | Notebook container commit successfully. | 提示 | 正常事件,无需处理。 |
ImagePushStarted | Start to push notebook image. | 提示 | 正常事件,无需处理。 |
ImagePushSuccess | Notebook image push successfully. | 提示 | 正常事件,无需处理。 |
ContainerCommitFailed | Failed to commit notebook container. Please contact SRE to check node {node_name}. {node_name}表示节点名称,为可变变量,一般为ip形式,如:192.168.225.161 | 提示 | 节点异常或内部服务错误,建议提工单,联系运维人员协助处理。 |
ImagePushFailed | Failed to push Notebook image. Please contact SRE to check node {node_name}. | 提示 | 推送镜像失败,可重试。如重试无法解决,建议提工单,联系运维人员协助处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
NotebookUnhealthy | 实例处于不健康状态 | 紧急 | 在实例中启动调试任务,如任务占用CPU,Memory或者IO资源过高,可能触发此事件,实例负载降低后可自动恢复。间隔一定时间后刷新页面,如新增NotebookHealthy事件,表示实例状态已恢复正常,无需处理。如长时间无法恢复,请提工单,联系运维人员进行协助处理。 |
OutOfMemory | 实例占用内存超过规格申请内存导致被驱逐 | 紧急 | 实例中进程占用内存超过实例规格申请内存,K8s机制会触发此事件,并重启实例。重启完成后实例状态刷新为正常,后续实例使用过程中,需避免高内存占用任务。 |
JupyterProcessKilled | Jupyter进程异常终止 | 紧急 | 实例中误操作停止jupyter进程或者实例对应容器未知错误,可能触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。 |
CacheVolumeExceedQuota | /cache目录文件大小超过最大限制 | 紧急 | /cache目录文件超过对应规格分配最大限制会触发此事件。此状态实例会自动重启,重启完成后实例状态刷新为正常。后续实例使用过程中,需关注/cache目录文件大小,此目录分配空间和实例规格对应关系可参考在ModelArts的Notebook中不同规格资源/cache目录的大小是多少。 |
NotebookHealthy | 实例从异常状态恢复至正常状态 | 重要 | 正常事件,无需处理。 |
EVSSoldOut | EVS存储售罄 | 紧急 | 创建Notebook时, 存储类型选择云硬盘EVS,如云硬盘EVS售罄,可能触发此事件。建议切换存储类型至对象存储服务OBS或并行文件系统PFS等类型。如需继续使用云硬盘EVS,请提工单,联系运维人员进行扩容处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
DynamicMountStorage | 挂载OBS存储 | 重要 | 正常事件,无需处理。 |
DynamicUnmountStorage | 卸载OBS存储 | 重要 | 正常事件,无需处理。 |
事件名称 | 事件描述 | 事件级别 | 处理建议 |
|---|---|---|---|
RefreshCredentialsFailed | 用户鉴权失败 | 紧急 | 正常事件,无需处理。 |

