Lite Server节点故障诊断
场景描述
Lite Server任务中心提供一键式故障诊断能力,包括参数面网络诊断和Ascend设备诊断。用户无需深入了解具体诊断操作命令,即可自助快捷地在Lite Server产品页面上完成网络和Ascend设备检查的诉求。
参数面网络诊断支持查询卡的网络状态,IP和掩码信息等,Ascend设备诊断支持对驱动固件版本兼容性进行诊断,并实现了带内检查自动化。同时可批量在多台服务器上同时启动诊断任务,大幅度提升效率。
约束限制
- 当前仅支持Snt9b节点和超节点Snt9b23。
- 同一个任务最多支持选择50个普通节点或超节点的子节点。
- 创建任务的节点需要安装NodeTaskHub插件, 请在创建任务前确保插件安装完毕,具体参见安装Lite Server AI插件。
- 同一时间节点上最多同时支持一个诊断任务,任务开始后无法中断, 请您规划好任务优先级。
- 请确保待诊断节点无业务运行,诊断过程中的命令执行可能导致当前业务中断或异常。
- 执行诊断前需安装Ascend HDK23.0.0及以后的版本的MCU、驱动和固件,预置操作系统已经默认安装,如果是自定义操作系统,也需确保该软件正常安装。
- 诊断任务依赖开发套件包Ascend-docker-runtime,预置操作系统已经默认安装该软件,如果是自定义操作系统,也需确保该软件正常安装。
操作步骤
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择,进入“任务中心”。
图1 任务中心
- 单击任务中心页面左上角的“创建任务”,进入“任务模板”页面,在该页面选择“Ascend故障诊断”,单击“创建任务”。
图2 任务模板
- 在Ascend故障诊断任务创建页面,填写“任务名称”、“任务描述”,选择“机型”,选择“诊断项目”,勾选使用须知并单击“立即创建”。
表1 创建任务参数 参数分类
参数说明
任务名称
系统自动填入任务名称,用户可以自定义。
任务描述
对该任务的描述信息,方便快速查找任务。
机型
选择机型,并在节点列表中勾选节点。具体节点信息支持通过关键字搜索。
支持Snt9b节点和超节点Snt9b23。
诊断项目
支持选择参数面网络诊断和Ascend设备检查,也可以同时执行。
- 参数面网络诊断:对网络相关指标和信息进行采集统计和状态诊断。
- Ascend设备诊断:对Ascend相关软件和芯片相关指标进行健康检测和兼容性验证。
- 返回“任务中心”页面,显示任务的执行状态。
- 单击具体的任务名称,可以进入任务详情页,查看任务的详细信息。
图3 查看任务详情
- 在任务详情页,单击“查看日志”,在页面右侧弹窗中查看任务执行的详细日志信息。所有检查结果会在任务日志中呈现,并提供了基本的日志分析。
图4 查看日志
带内自动化检查项
Ascend设备检查任务中完成的带内自动化检查项包括以下内容。
|
检查项目 |
命令参考 |
检查动作 |
|---|---|---|
|
检测UDP端口散列配置 |
hccn_tool -i $i -udp -g |
检查端口号是否为0/4791的异常 |
|
检测NPU卡健康信息 |
timeout 20s npu-smi info -t health -i "$i" | grep OK -c |
仅限Snt9b23,检查NPU健康码是否为3 |
|
检测NPU驱动版本是否一致 |
timeout 20s npu-smi info -t board -i "$i" | grep Version |
检查所有NPU卡的驱动号码是否一致 |
|
检测PCIE LINK状态 |
lspci | grep d8 / lspci | grep d8 -c |
仅限Snt9b23,PCIE 建链是否为16 |
|
检测NPU网卡是否UP |
hccn_tool -i $i -link -g |
检测网卡是否down |
|
检测NPU网卡健康状态 |
hccn_tool -i $i -net_health -g |
网卡是否健康 |
|
检测NPU PFC是否符合预期 |
hccn_tool -i $i -pfc -g |
检测PFC是否满足条件,PFC固定配置如下 |
|
检测TLS证书是否符合预期 |
hccn_tool -i $i -tls -g | grep switch |
字段内switch[0]是否满足 |
|
驱动固件版本兼容性测试 |
ascend-dmi -ci |
判断兼容性是否满足 |