管理健康巡检作业
查看健康巡检作业列表
- 登录ModelArts管理控制台。在左侧导航栏中,选择“运维管理 > 健康巡检”,进入“健康巡检”列表。
- 在作业列表,单击“删除”,在弹框中单击“确定”,可以将健康巡检作业删除。
健康巡检作业状态说明
- 在健康巡检作业列表中,刚创建的巡检作业状态为“创建中”。
- 当健康巡检作业的状态变为“排队中”时,表示资源已被正在运行的巡检作业占满,需排队等待。
- 当健康巡检作业的状态变为“巡检中”时,表示作业正在巡检中。
- 当健康巡检作业的状态变为“作业超时”时,表示巡检作业执行异常无法在预期时间内获取巡检结果,请联系技术支持处理。
- 当健康巡检作业的状态变为“作业失败”时,表示作业提交失败等问题,请联系技术支持处理。
- 当健康巡检作业的状态变为“创建失败”时,表示资源状态异常或排队作业数量达到上限,可等待资源恢复或其他作业运行结束后再试。
- 当健康巡检作业的状态变为“终止中”时,表示正在释放此巡检作业占用的资源。
- 当健康巡检作业的状态变为“作业终止”时,表示此巡检作业已经终止,所占用的资源已经成功释放。
查看巡检详情
- 健康巡检作业基本信息字段说明
表1 健康巡检作业基础信息字段说明 参数
说明
“作业ID”
巡检作业唯一标识。
“诊断耗时”
记录作业的运行时长。
“创建时间”
记录作业创建时间。
“更新时间”
记录作业最后更新时间。
“创建者”
记录创建作业的用户名。
“描述”
记录作业的简单描述。
“资源类型”
记录作业巡检输入的资源类型。
“巡检对象”
记录作业巡检输入的巡检对象,当资源类型为轻量算力集群,则是资源池;否则,则是单节点/超节点。
“资源池名称/ID”
记录作业巡检输入的资源池名称/ID。
“节点IP/名称”
记录作业巡检资源类型为轻量算力集群(Lite Cluster)时输入的节点IP/名称。
“节点ID/名称”
记录作业巡检资源类型为轻量算力节点(Lite Server)时输入的节点ID/名称。
“节点数”
记录作业巡检的节点数量。
“巡检类型”
记录作业巡检类型。
“深度巡检”
记录深度巡检的类目。
- 健康巡检作业详情字段说明
表2 标准巡检作业详情字段说明 参数
说明
“巡检类目”
显示本次巡检作业的类别及所在类目。
“巡检项”
显示本次巡检作业的巡检项。
“异常节点(异常/总数)”
显示本次巡检作业的所在巡检项的异常节点数量和节点总数。
“执行状态”
显示本次巡检作业的作业执行状态。
“巡检结果”
显示本次巡检作业的作业巡检结果状态。
“巡检详情”
显示本次巡检作业的作业巡检详情。
“处理建议”
显示本次诊断作业故障的处理建议。
“操作”
单击“详情”,查看本次巡检作业异常节点详情,请见表3。
表3 标准巡检作业异常节点详情字段说明 参数
说明
“节点IP/名称”
作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的节点IP和节点名称。
“节点ID/名称”
作业巡检资源类型为轻量算力节点(Lite Server)时,显示本次巡检作业的巡检的节点ID和节点名称。
“服务器ID”
作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的服务器ID。
“执行状态”
显示本次巡检作业的所在巡检项的节点的作业执行状态。
“巡检结果”
显示本次巡检作业的所在巡检项的巡检结果。
“巡检详情”
显示本次巡检作业故障现象的详细描述或说明。
“处理建议”
显示本次诊断作业故障节点的处理建议。
表4 深度巡检作业详情字段说明 参数
说明
“巡检类目”
显示本次巡检作业的类别及所在类目。
“巡检项”
显示本次巡检作业的巡检项。
“异常节点(异常/总数)”
显示本次巡检作业的所在巡检项的异常节点数量和节点总数。
“执行状态”
显示本次巡检作业的作业执行状态。
“巡检结果”
显示本次巡检作业的作业巡检结果状态。
“巡检详情”
显示本次巡检作业的作业巡检详情。
“处理建议”
显示本次诊断作业故障的处理建议。
“操作”
单击“详情”,查看本次巡检作业异常节点详情,请见表5。
表5 深度巡检作业异常节点详情字段说明 参数
说明
“节点IP/名称”
作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的节点IP和节点名称。
“节点ID/名称”
作业巡检资源类型为轻量算力节点(Lite Server)时,显示本次巡检作业的巡检的节点ID和节点名称。
“服务器ID”
作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的服务器ID。
“执行状态”
显示本次巡检作业的作业执行状态。
“巡检结果”
显示本次巡检作业的作业巡检结果状态。
“巡检详情”
显示本次巡检作业故障现象的详细描述或说明。
“处理建议”
显示本次诊断作业故障节点的处理建议。
删除健康巡检作业
如果不再需要使用此巡检作业,建议清除相关资源。“巡检中”和“排队中”状态的作业无法删除,作业结束后可以删除。
请注意,删除巡检作业后无法恢复,请谨慎操作。
在“作业列表”页面,删除运行结束的巡检作业。您可以单击“操作”列的“删除”,单击“确定”,删除对应的巡检作业。
终止健康巡检作业
如果不需要使用“巡检中”和“排队中”状态的作业,建议终止此巡检作业。仅“巡检中”和“排队中”状态的作业可以终止,作业终止后可以删除。
在“作业列表”页面,终止“巡检中”和“排队中”状态的巡检作业。您可以单击“操作”列的“更多”,单击“终止”,单击“确定”,终止对应的巡检作业。
复制健康巡检作业
如果需要根据已有的巡检作业创建新的巡检作业。建议复制此巡检作业。
在“作业列表”页面,复制巡检作业。您可以单击“操作”列的“更多”,单击“复制”,跳转到创建页面,可以参考表1参数信息修改相应参数,单击“立即创建”,创建新的巡检作业。