更新时间:2025-12-01 GMT+08:00
分享

管理健康巡检作业

查看健康巡检作业列表

  1. 登录ModelArts管理控制台。在左侧导航栏中,选择“运维管理 > 健康巡检”,进入“健康巡检”列表。
  2. 在作业列表,单击“删除”,在弹框中单击“确定”,可以将健康巡检作业删除。

健康巡检作业状态说明

  • 在健康巡检作业列表中,刚创建的巡检作业状态为“创建中”。
  • 当健康巡检作业的状态变为“排队中”时,表示资源已被正在运行的巡检作业占满,需排队等待。
  • 当健康巡检作业的状态变为“巡检中”时,表示作业正在巡检中。
  • 当健康巡检作业的状态变为“作业超时”时,表示巡检作业执行异常无法在预期时间内获取巡检结果,请联系技术支持处理。
  • 当健康巡检作业的状态变为“作业失败”时,表示作业提交失败等问题,请联系技术支持处理。
  • 当健康巡检作业的状态变为“创建失败”时,表示资源状态异常或排队作业数量达到上限,可等待资源恢复或其他作业运行结束后再试。
  • 当健康巡检作业的状态变为“终止中”时,表示正在释放此巡检作业占用的资源。
  • 当健康巡检作业的状态变为“作业终止”时,表示此巡检作业已经终止,所占用的资源已经成功释放。

查看巡检详情

在“健康巡检”列表中,单击作业名称,进入健康巡检作业详情页。
  • 健康巡检作业基本信息字段说明
    表1 健康巡检作业基础信息字段说明

    参数

    说明

    “作业ID”

    巡检作业唯一标识。

    “诊断耗时”

    记录作业的运行时长。

    “创建时间”

    记录作业创建时间。

    “更新时间”

    记录作业最后更新时间。

    “创建者”

    记录创建作业的用户名。

    “描述”

    记录作业的简单描述。

    “资源类型”

    记录作业巡检输入的资源类型。

    “巡检对象”

    记录作业巡检输入的巡检对象,当资源类型为轻量算力集群,则是资源池;否则,则是单节点/超节点。

    “资源池名称/ID”

    记录作业巡检输入的资源池名称/ID。

    “节点IP/名称”

    记录作业巡检资源类型为轻量算力集群(Lite Cluster)时输入的节点IP/名称。

    “节点ID/名称”

    记录作业巡检资源类型为轻量算力节点(Lite Server)时输入的节点ID/名称。

    “节点数”

    记录作业巡检的节点数量。

    “巡检类型”

    记录作业巡检类型。

    “深度巡检”

    记录深度巡检的类目。

  • 健康巡检作业详情字段说明
    表2 标准巡检作业详情字段说明

    参数

    说明

    “巡检类目”

    显示本次巡检作业的类别所在类目。

    “巡检项”

    显示本次巡检作业的巡检项。

    “异常节点(异常/总数)”

    显示本次巡检作业的所在巡检项的异常节点数量和节点总数。

    “执行状态”

    显示本次巡检作业的作业执行状态。

    “巡检结果”

    显示本次巡检作业的作业巡检结果状态。

    “巡检详情”

    显示本次巡检作业的作业巡检详情。

    “处理建议”

    显示本次诊断作业故障的处理建议。

    “操作”

    单击“详情”,查看本次巡检作业异常节点详情,请见表3

    表3 标准巡检作业异常节点详情字段说明

    参数

    说明

    “节点IP/名称”

    作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的节点IP和节点名称。

    “节点ID/名称”

    作业巡检资源类型为轻量算力节点(Lite Server)时,显示本次巡检作业的巡检的节点ID和节点名称。

    “服务器ID”

    作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的服务器ID。

    “执行状态”

    显示本次巡检作业的所在巡检项的节点的作业执行状态。

    “巡检结果”

    显示本次巡检作业的所在巡检项的巡检结果。

    “巡检详情”

    显示本次巡检作业故障现象的详细描述或说明。

    “处理建议”

    显示本次诊断作业故障节点的处理建议。

    表4 深度巡检作业详情字段说明

    参数

    说明

    “巡检类目”

    显示本次巡检作业的类别所在类目。

    “巡检项”

    显示本次巡检作业的巡检项。

    “异常节点(异常/总数)”

    显示本次巡检作业的所在巡检项的异常节点数量和节点总数。

    “执行状态”

    显示本次巡检作业的作业执行状态。

    “巡检结果”

    显示本次巡检作业的作业巡检结果状态。

    “巡检详情”

    显示本次巡检作业的作业巡检详情。

    “处理建议”

    显示本次诊断作业故障的处理建议。

    “操作”

    单击“详情”,查看本次巡检作业异常节点详情,请见表5

    表5 深度巡检作业异常节点详情字段说明

    参数

    说明

    “节点IP/名称”

    作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的节点IP和节点名称。

    “节点ID/名称”

    作业巡检资源类型为轻量算力节点(Lite Server)时,显示本次巡检作业的巡检的节点ID和节点名称。

    “服务器ID”

    作业巡检资源类型为轻量算力集群(Lite Cluster)时,显示本次巡检作业的巡检的服务器ID。

    “执行状态”

    显示本次巡检作业的作业执行状态。

    “巡检结果”

    显示本次巡检作业的作业巡检结果状态。

    “巡检详情”

    显示本次巡检作业故障现象的详细描述或说明。

    “处理建议”

    显示本次诊断作业故障节点的处理建议。

删除健康巡检作业

如果不再需要使用此巡检作业,建议清除相关资源。“巡检中”和“排队中”状态的作业无法删除,作业结束后可以删除。

请注意,删除巡检作业后无法恢复,请谨慎操作。

在“作业列表”页面,删除运行结束的巡检作业。您可以单击“操作”列的“删除”,单击“确定”,删除对应的巡检作业。

终止健康巡检作业

如果不需要使用“巡检中”和“排队中”状态的作业,建议终止此巡检作业。仅“巡检中”和“排队中”状态的作业可以终止,作业终止后可以删除。

在“作业列表”页面,终止“巡检中”和“排队中”状态的巡检作业。您可以单击“操作”列的“更多”,单击“终止”,单击“确定”,终止对应的巡检作业。

复制健康巡检作业

如果需要根据已有的巡检作业创建新的巡检作业。建议复制此巡检作业。

在“作业列表”页面,复制巡检作业。您可以单击“操作”列的“更多”,单击“复制”,跳转到创建页面,可以参考表1参数信息修改相应参数,单击“立即创建”,创建新的巡检作业。

相关文档