更新时间:2025-12-31 GMT+08:00
分享

超节点概述

超节点是指通过高速互联网络技术,由单台或多台高性能AI服务器组建而成的 “超级计算节点”,专门用于处理AI大模型训练与推理等对算力要求极高的任务。华为CloudMatrix 384超节点通过自主研发的Unified Bus(UB)网络,将384颗Snt9b23 NPU与192颗Kunpeng CPU无缝互联,能够构建高计算密度的异构算力单元,并支撑高速内部数据流转,为AI推理等密集型任务提供强劲动力。本文将介绍CCE集群下超节点的资源架构、网络架构等信息。

CCE集群暂未开放超节点池及超节点的创建和删除入口,请通过ModelArts服务进行超节点及超节点池的创建和删除,具体请参见Lite Cluster资源开通Lite Cluster资源管理。您在ModelArts服务购买超节点后,ModelArts会将超节点纳管至对应CCE集群,无需在CCE服务界面进行额外操作。

超节点资源架构

图1 超节点资源架构
  • 超节点池:由集群中一组配置相同的超节点组成,一个超节点池可包含一个或多个超节点,而每个超节点的子节点数量取决于其具体规格。超节点池本质为配置模板,所有超节点均从超节点池发放。目前,CCE超节点池不负责管理超节点及其内部节点的生命周期,仅用于统一管理动态配置(如K8S污点、标签等)。
  • 资源生命周期:超节点内节点的生命周期与超节点保持一致。当超节点被删除时,其包含的节点会被级联删除;当超节点执行切换操作系统、重置或移除操作时,所有节点会同步执行相同操作。因此,超节点内的节点不支持单独进行删除、重置、移除或切换操作系统等操作。资源的生命周期管理需在ModelArts服务中操作,具体请参见ModelArts Lite Cluster用户指南

超节点的网络架构

在AI大模型训练场景中,网络传输需求显著高于传统通用业务场景,传统VPC网络难以满足大规模模型训练对带宽和性能的要求。随着大模型的兴起,AI训练与推理任务已超越单卡或单机规模,通常需要多个容器实例协同运行,形成分布式任务负载。在分布式训练过程中,负载实例间的数据交互依据性能需求可划分为多级梯度,如模型并行(要求最高)和数据并行(要求次之)等,这对网络性能的要求远高于传统业务场景。针对这一核心痛点,超节点网络架构有着更好的适配性与性能优势,具体如下:

  • 参数面网络:又称网络联通域,表示超节点间NPU互通网络,用于满足负载间数据并行的需求。
  • 超平面网络:又称网络性能域,表示超节点内NPU互通网络,每个超节点对应一个网络性能域。各超节点内包含一组节点,节点间在参数面互通基础上,提供更高性能的网络条件,满足模型并行的诉求。
图2 网络架构

通过超节点的网络特性,可以覆盖各类并行任务的调度与通信需求,实现资源管控到负载交互全链路优化,为大模型训练与推理提供高效支撑。

超节点的调度策略

针对超节点场景,CCE提供了超节点拓扑亲和调度策略,与新的工作负载API HyperJob结合,可以将关联度高的Pod调度至同一超节点内,从而有效减少跨节点通信,降低网络延迟,并提高数据传输速度。遵循的调度原则如下,更多信息请参见超节点拓扑亲和调度

  • 亲和调度:HyperJob允许用户对训练作业进行亲和组划分,每个亲和组会被亲和调度到同一个超平面网络,即超节点。
  • 装箱调度(Binpack):HyperJob支持基于超节点的Binpack调度策略,会优先选择调度后资源利用率更高的超节点。
  • 组调度(Gang):HyperJob支持Gang调度,将HyperJob下的Pod看做一个整体调度,只有HyperJob的最小运行数量得到满足时,为所有Pod执行调度动作,否则,HyperJob处于pending状态。

此外,HyperJob调度成功后,系统自动生成包含NPU节点信息与超节点拓扑数据的Ranktable文件。该文件供训练框架调用,用于快速建立NPU间通信链路,实现梯度、模型参数等关键数据的高效同步。

相关文档