更新时间:2025-12-01 GMT+08:00
分享

创建健康巡检作业

支持对集群和节点进行健康巡检,主要用于在执行AI作业不同阶段的常规巡检和深度巡检,检测硬件、环境等是否正常运行。健康巡检包含两种巡检类型:标准巡检和深度巡检,更多详情请见标准巡检和深度巡检说明,可根据需要自行选择。

约束限制

  • 巡检作业排队中数量限制不能超过10个,当排队中状态的作业数量超过10个时,无法继续创建新的巡检作业。
  • 巡检作业目前仅支持对ascend-snt9b规格的集群进行诊断,选择其他型号的集群/节点进行诊断时,可能导致巡检作业执行失败。
  • 选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。确认相关节点的状态后,再下发压测作业。
  • 巡检会长时间占用NPU资源(大约3-8小时),确保巡检期间集群无业务运行。
  • 巡检作业的只保留最近6个月的结果数据。

创建健康巡检作业操作步骤

  1. 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 健康巡检”,进入健康巡检页面。
  2. 单击“创建作业”进入创建作业界面。
  3. 在创建健康巡检作业界面,参考表1参数信息填写相应参数。

    表1 创建健康巡检作业参数说明

    参数名

    参数说明

    作业名称

    健康巡检作业的名称。

    系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:

    只允许输入长度为 1 到 64 位由数字、中文、英文、下划线(_)或中划线(-)组成的字符。

    添加描述

    可选,健康巡检作业的简单描述。

    巡检范围

    健康巡检的范围,按资源类型分为:轻量算力集群(Lite Cluster)和轻量算力节点(Lite Server)。

    轻量算力集群:选择一个资源池下的若干个节点进行巡检。

    轻量算力节点:选择若干个单节点或者同一超节点下的若干个子节点进行巡检。

    巡检类型

    健康巡检作业的类型,包括标准巡检、深度巡检。

    标准巡检:创建分钟级别的快速巡检,用户无需手动填写相关巡检项配置,默认自动执行包括主机配置与状态、NPU健康检查等所有标准巡检相关巡检项。

    深度巡检:创建小时级别的深度巡检,用户可以视情况选择相关巡检项配置,包括NPU性能诊断、NPU压测、网络压测等深度巡检相关巡检项。

    压测用例配置

    配置执行压力测试的压测用例。

    系统默认选择NPU性能诊断下的所有巡检项,可根据业务需求自行选择。巡检类目和巡检项详见深度巡检结果说明

  4. 参数设置完成后,单击“立即创建”,返回健康巡检作业列表页面。

    巡检作业创建成功后,运行中状态表示作业正在执行,待作业成功后可以进入详情查询具体巡检结果,其他状态详情参考巡检状态说明

相关文档