高速网络栈
概述
高速网络栈基于高性能网络协议,通过AI参数面网络实现裸金属服务器内NPU卡的互通互联,可提供大规模集群网络拓扑管理和智能调度能力,同时,结合网络大脑的故障快速感知恢复能力,可为AI训练和推理场景提供大规模高性能高可靠的网络通信。
目前高速网络栈能力为受限功能,如需使用请提交工单或联系华为工程师评估后处理。
优势
- 性能优异:提供高速带宽互联网络,满足多种应用场景需求。
- 灵活调度:感知客户意图,基于全局拓扑提供资源灵活调度。
- 可靠性高:提供故障的快速感知、诊断和恢复能力,保障集群长稳。
应用场景
AI大模型训练推理场景下通常需要大规模算力集群,为了充分发挥算力资源和网络资源的利用率,减少任务并行过程中的网络流量冲突,提升AI任务的训练推理效率,高速网络栈可以提供大规模集群的网络拓扑管理、资源的最优调度和集群的高可靠性。
基本功能
- 网络管理
AI参数面网络通过先进的RDMA语义和物理RoCE协议,来提供节点间低时延和大带宽高速通信。在AI训练推理多租户多任务场景下,可以通过参数面子网和端口为裸金属服务器内每张NPU卡分配独立的IP地址,用于参数面网络通信,属于同一个参数面子网内的裸金属服务器的NPU卡之间即可互相通信,不同子网的NPU卡之间网络不通。
图2 不同子网NPU卡间的网络
- 智能调度
AI大模型训练会将训练任务切分到多个计算节点进行分布式并行训练,会在节点之间引入复杂的通信行为,导致训练效率下降,智能调度通过考虑分布式训练通信的复杂性和集群带宽多级收敛的特性,根据大模型训练任务特征,并行度及可用资源拓扑信息,提供基于拓扑感知的亲和性部署和路径规划能力,降低模型训练过程中传输时间,提升大模型训练性能。
智能调度通过RESTful API接口可提供的能力包括:
- 拓扑搜索:根据用户提供的大模型超参、并行度及可用资源列表,提供给用户基于拓扑感知的任务资源最优选择建议。
- 拓扑感知调度:用户资源选择后,根据大模型超参、并行度、集合通信算法及AI编程框架等信息,优化资源部署及链路路由规划,提供资源调度优化建议。
图3 restful API调用示意
- 网络大脑
网络大脑通过感知设备和网络链路的状态实现故障快速发现,结合流量诊断及流量画像功能,基于AI算法和故障模式库,可快速诊断故障根因并决策故障恢复手段,减少故障爆炸半径,消除突发扰邻,提升系统的可靠性,实现IO吞吐效率大幅提升。
网络大脑提供的能力包括:
- 监控功能
监控功能以站点视图方式呈现整个AI集群运行视图及告警视图。其功能特性主要是构建集群级的拓扑,通过监控平台提供的监控告警数据,提供拓扑展示、异常检测、异常染色、异常详情、告警染色、告警关联、告警详情展示功能。
- 故障预警
通过向下对接监控平台,获取交换机设备、端口相关的日志、KPI监控信息,对设备、端口及光模块的故障进行快速告警,同时,基于异常检测算法、故障模式库及故障分类识别算法进行故障诊断,诊断的根因会在根因推荐页面进行展示。支持多维故障决策功能,对不同的故障模式进行根因排序,给出对作业的影响,对于要分析的告警,支持通过配置黑名单的方式进行故障防呆和过滤,待故障点消失后,可以通过告警展示来进行故障恢复通知。
- 流量诊断
提供从监控系统采集流量信息功能,具体包括端口级的流量等信息采集能力,支持基于流量特性的故障模式进行异常检测,基于全链路诊断算法,提供参数面网络全链路的故障综合分析能力。
- 流量画像
通过对接轻量化网络流采集工具,可以实现无入侵、可常驻的训练过程观测,从采集的网络流量数据中识别训练作业业务特征和网络流量特征,包括流量亲和性分析、流量线性度劣化分析等,通过在根因推荐页面提供AI流量画像功能,来进行源端口配置检测、交换机Hash异常检测、多任务冲突检测、网络拥塞分析等,基于流量、PFC、丢包等指标追踪劣化点,实现线性度劣化快速定位定界,帮助客户决策线性度恢复的手段。
- 故障预测
通过对设备、链路、光模块的监控数据进行智能分析,自动识别潜在亚健康问题,保障任务长时间运行,出现故障时能够降低故障概率。针对亚健康细分场景,可以进行自动诊断和隔离亚健康设备、链路和光模块。基于对接的监控平台提供的日志、KPI监控信息,结合AI算法计算光模块和链路发生故障的概率,通过生成告警进行故障预测。
- 监控功能