更新时间:2024-04-30 GMT+08:00
分享

Atlas800训练服务器硬件指南

场景描述

本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。

Atlas 800训练服务器三维视图

Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景,可单击此处查看硬件三维视图。

Atlas 800训练服务器HCCN Tool

Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。

Atlas 800训练服务器备件查询助手

备件查询助手可以帮助你查询服务器的所有部件、规格描述,数量等详细信息。

打开网站后请输入SN编码“2102313LNR10P5100077”, 若失效可以提工单至华为云ModelArts查询。

Atlas 800训练服务器的网卡配置问题

  1. 机头网卡配置是什么?
    有以下两类网卡:
    • 四个2*100GE网卡,为RoCE网卡,插在NPU板。
    • 一个4*25GE/10GE,为Hi1822网卡,插在主板上的。
  2. ifconfig能看到的网卡信息吗

    能看到主板上的网卡信息,即VPC分配的私有IP。若要看RoCE网卡的命令需要执行“hccn_tools”命令查看,参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。

  3. NPU上的网卡在哪里可以看到, 会健康检查吗?

    8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。

分享:

    相关文档

    相关产品