创建健康巡检作业
支持对集群和节点进行健康巡检,主要用于在执行AI作业不同阶段的常规巡检和深度巡检,检测硬件、环境等是否正常运行。健康巡检包含两种巡检类型:标准巡检和深度巡检,更多详情请见标准巡检和深度巡检说明,可根据需要自行选择。
约束限制
- 巡检作业排队中数量限制不能超过10个,当排队中状态的作业数量超过10个时,无法继续创建新的巡检作业。
- 巡检作业目前仅支持对ascend-snt9b规格的集群进行诊断,选择其他型号的集群/节点进行诊断时,可能导致巡检作业执行失败。
- 选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。确认相关节点的状态后,再下发压测作业。
- 巡检会长时间占用NPU资源(大约3-8小时),确保巡检期间集群无业务运行。
- 巡检作业的只保留最近6个月的结果数据。
创建健康巡检作业操作步骤
- 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 健康巡检”,进入健康巡检页面。
- 单击“创建作业”进入创建作业界面。
- 在创建健康巡检作业界面,参考表1参数信息填写相应参数。
表1 创建健康巡检作业参数说明 参数名
参数说明
作业名称
健康巡检作业的名称。
系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:
只允许输入长度为 1 到 64 位由数字、中文、英文、下划线(_)或中划线(-)组成的字符。
添加描述
可选,健康巡检作业的简单描述。
巡检范围
健康巡检的范围,按资源类型分为:轻量算力集群(Lite Cluster)和轻量算力节点(Lite Server)。
轻量算力集群:选择一个资源池下的若干个节点进行巡检。
轻量算力节点:选择若干个单节点或者同一超节点下的若干个子节点进行巡检。
巡检类型
健康巡检作业的类型,包括标准巡检、深度巡检。
标准巡检:创建分钟级别的快速巡检,用户无需手动填写相关巡检项配置,默认自动执行包括主机配置与状态、NPU健康检查等所有标准巡检相关巡检项。
深度巡检:创建小时级别的深度巡检,用户可以视情况选择相关巡检项配置,包括NPU性能诊断、NPU压测、网络压测等深度巡检相关巡检项。
压测用例配置
配置执行压力测试的压测用例。
系统默认选择NPU性能诊断下的所有巡检项,可根据业务需求自行选择。巡检类目和巡检项详见深度巡检结果说明。
- 参数设置完成后,单击“立即创建”,返回健康巡检作业列表页面。
巡检作业创建成功后,运行中状态表示作业正在执行,待作业成功后可以进入详情查询具体巡检结果,其他状态详情参考巡检状态说明。