- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
-
私有镜像制作指南
- 制作镜像准备
- 创建虚拟机
-
安装并配置虚拟机(Linux)
- 安装虚拟机
- 启动引导文件修改(仅UEFI启动场景涉及)
- 虚拟机环境配置
- 安装Cloud-Init
- 配置Cloud-Init
- 查看Cloud-Init服务状态
- 修改引导的硬件设备驱动
- 安装bms-network-config软件包
- 安装network服务
- 安装SDI卡驱动
- 安装Hi1822网卡驱动
- 安装IB驱动(可选)
- 安装FusionServer/TaiShanServer服务器iDriver驱动
- 安装多路径软件(可选)
- 安装一键式重置密码插件
- 安全性配置
-
配置裸金属服务器远程登录
- x86:Oracle Linux 7.3/Oracle Linux 7.4/Red Hat 7系列/CentOS 7.2/CentOS 7.4/CentOS 7.5/CentOS 7.6
- x86:Oracle Linux 6系列/Red Hat 6系列/CentOS 6系列
- x86:SUSE 11 SP4
- ARM:CentOS 7
- x86:SUSE 12系列/SUSE 15系列/CentOS 7.3/EulerOS/OpenEuler/Oracle Linux 7.2
- ARM:EulerOS/OpenEuler
- x86:Ubuntu 16.04/Ubuntu 18.04
- ARM:Ubuntu 16.04、Ubuntu 18.04
- x86:Ubuntu 14.04/Debian
- 配置根分区自动扩盘
- 昇腾服务器驱动和固件安装升级
- 安装vroce驱动
- 清理文件
- 配置虚拟机(Windows)
- 获取镜像
-
FAQ
- 如何处理从Linux裸金属服务器的bond0的vlan子接口输出的报文,其源mac为bond0的mac问题?
- 如何处理SUSE 12 SP1操作系统自带的wicked模块,其概率性将bond端口模式配置不正确,进而导致IP链路不通的问题?
- 如何设置裸金属服务器CPU频率调节模式?
- 如何处理Windows裸金属服务器下发后Cloudbase-init服务异常退出的问题?
- 如何处理cloud-init-local概率性启动失败导致裸金属服务器不能正确注入数据的问题?
- x86 EulerOS 2.3 UDP报文性能调优
- 如何处理EulerOS系列操作系统在远程登录时,出现无法弹出登录指令或乱码干扰登录的问题?
- 如何对软件进行完整性校验?
- 如何检查device是否正常运行
- 附录
- 修订记录
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- API
- 应用示例
- 公共参数
- 权限和授权项
-
历史API
- 接口使用说明(OpenStack Nova API)
- 查询API版本信息(OpenStack Nova API)
- 裸金属服务器生命周期管理(OpenStack Nova API)
- 裸金属服务器状态管理(OpenStack Nova API)
- 裸金属服务器元数据管理(OpenStack Nova API)
- 裸金属服务器IP地址查询(OpenStack Nova API)
- 裸金属服务器规格查询(OpenStack Nova API)
- 裸金属服务器网卡管理(OpenStack Nova API)
- 裸金属服务器云硬盘管理(OpenStack Nova API)
- 裸金属服务器一维标签管理(OpenStack Nova API)
- 附录
- 修订记录
- 场景代码示例
- SDK参考
-
常见问题
- 通用类
- 实例类
- 密钥对与密码类
- 登录类
-
网络与安全类
- 不同账号下裸金属服务器内网是否可以互通?
- 同一区域、不同可用区的两台裸金属服务器如何通信?
- 我创建的裸金属服务器是否在同一子网?
- 裸金属服务器是否可以关联多个安全组?
- 裸金属服务器可以和同一VPC内的弹性云服务器通信吗?
- 裸金属服务器的主网卡和扩展网卡在使用上有什么区别?
- 裸金属服务器可以绑定多个弹性公网IP吗?
- 是否可以手动设置弹性公网IP的地址?
- 已释放的弹性公网IP,再次申请会分配相同的EIP地址吗?
- 弹性公网IP、私有IP、虚拟IP之间有什么区别?
- 在只能使用SSH登录裸金属服务器的情况下,如何修改裸金属服务器的网络配置或重启网络?
- 如何处理CentOS 7系列扩展网卡无法ping通的问题?
- 如何处理业务端口被一键式重置密码插件占用?
- 如何处理裸金属服务器主网卡和扩展网卡共平面通信异常问题?
- 如何设置裸金属服务器的静态IP?
- 裸金属服务器绑定128个eth网络设备时,网络性能差,如何解决?
- 磁盘类
-
操作系统类
- 我能否自己安装或者升级操作系统?
- 裸金属服务器能否更换操作系统?
- 裸金属服务器操作系统是否有图形界面?
- 裸金属服务器操作系统自带上传工具吗?
- 裸金属服务器的公共镜像是否存在Swap分区?
- 如何设置裸金属服务器的静态主机名?
- 如何设置裸金属服务器镜像密码的有效期?
- 如何设置SSH服务配置项?
- Windows裸金属服务器的系统时间与本地时间相差8小时,如何处理?
- Windows Server 2012裸金属服务器如何修改SID值?
- CentOS 7系列裸金属服务器如何切换内核版本?
- 根分区自动扩盘的场景下,如何隔离日志空间大小?
- 误升内核的场景,如何回退至原始内核版本?
- 如何增加系统Swap交换分区的大小?
- 如何扩展快速发放裸金属服务器的根分区大小?
- Linux操作系统常用命令速查
- 重新挂载lvm卷后如何更新磁盘metadata信息
- Windows云盘裸机HA之后网络不通如何恢复?
- 故障排除
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
高速网络栈
概述
高速网络栈基于高性能网络协议,通过AI参数面网络实现裸金属服务器内NPU卡的互通互联,可提供大规模集群网络拓扑管理和智能调度能力,同时,结合网络大脑的故障快速感知恢复能力,可为AI训练和推理场景提供大规模高性能高可靠的网络通信。
目前高速网络栈能力为受限功能,如需使用请提交工单或联系华为工程师评估后处理。
优势
- 性能优异:提供高速带宽互联网络,满足多种应用场景需求。
- 灵活调度:感知客户意图,基于全局拓扑提供资源灵活调度。
- 可靠性高:提供故障的快速感知、诊断和恢复能力,保障集群长稳。
应用场景
AI大模型训练推理场景下通常需要大规模算力集群,为了充分发挥算力资源和网络资源的利用率,减少任务并行过程中的网络流量冲突,提升AI任务的训练推理效率,高速网络栈可以提供大规模集群的网络拓扑管理、资源的最优调度和集群的高可靠性。

基本功能
- 网络管理
AI参数面网络通过先进的RDMA语义和物理RoCE协议,来提供节点间低时延和大带宽高速通信。在AI训练推理多租户多任务场景下,可以通过参数面子网和端口为裸金属服务器内每张NPU卡分配独立的IP地址,用于参数面网络通信,属于同一个参数面子网内的裸金属服务器的NPU卡之间即可互相通信,不同子网的NPU卡之间网络不通。
图2 不同子网NPU卡间的网络 - 智能调度
AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和集群带宽多级收敛的特性,根据大模型训练任务特征,并行度及可用资源拓扑信息,提供基于拓扑感知的亲和性部署和路径规划能力,降低模型训练过程中传输时间,提升大模型训练性能。
智能调度通过RESTful API接口可提供的能力包括:
- 拓扑搜索:根据用户提供的大模型超参、并行度及可用资源列表,提供给用户基于拓扑感知的任务资源最优选择建议。
- 拓扑感知调度:用户资源选择后,根据大模型超参、并行度、集合通信算法及AI编程框架等信息,优化资源部署及链路路由规划,提供资源调度优化建议。
图3 restful API调用示意 - 网络大脑
网络大脑通过感知设备和网络链路的状态实现故障快速发现,结合流量诊断及流量画像功能,基于AI算法和故障模式库,可快速诊断故障根因并决策故障恢复手段,减少故障爆炸半径,消除突发扰邻,提升系统的可靠性,实现IO吞吐效率大幅提升。
网络大脑提供的能力包括:
- 监控功能
监控功能以站点视图方式呈现整个AI集群运行视图及告警视图。其功能特性主要是构建集群级的拓扑,通过监控平台提供的监控告警数据,提供拓扑展示、异常检测、异常染色、异常详情、告警染色、告警关联、告警详情展示功能。
- 故障预警
通过向下对接监控平台,获取交换机设备、端口相关的日志、KPI监控信息,对设备、端口及光模块的故障进行快速告警,同时,基于异常检测算法、故障模式库及故障分类识别算法进行故障诊断,诊断的根因会在根因推荐页面进行展示。支持多维故障决策功能,对不同的故障模式进行根因排序,给出对作业的影响,对于要分析的告警,支持通过配置黑名单的方式进行故障防呆和过滤,待故障点消失后,可以通过告警展示来进行故障恢复通知。
- 流量诊断
提供从监控系统采集流量信息功能,具体包括端口级的流量等信息采集能力,支持基于流量特性的故障模式进行异常检测,基于全链路诊断算法,提供参数面网络全链路的故障综合分析能力。
- 流量画像
通过对接轻量化网络流采集工具,可以实现无入侵、可常驻的训练过程观测,从采集的网络流量数据中识别训练作业业务特征和网络流量特征,包括流量亲和性分析、流量线性度劣化分析等,通过在根因推荐页面提供AI流量画像功能,来进行源端口配置检测、交换机Hash异常检测、多任务冲突检测、网络拥塞分析等,基于流量、PFC、丢包等指标追踪劣化点,实现线性度劣化快速定位定界,帮助客户决策线性度恢复的手段。
- 故障预测
通过对设备、链路、光模块的监控数据进行智能分析,自动识别潜在亚健康问题,保障任务长时间运行,出现故障时能够降低故障概率。针对亚健康细分场景,可以进行自动诊断和隔离亚健康设备、链路和光模块。基于对接的监控平台提供的日志、KPI监控信息,结合AI算法计算光模块和链路发生故障的概率,通过生成告警进行故障预测。
- 监控功能