超节点概述

超节点是指通过高速互联网络技术，由单台或多台高性能AI服务器组建而成的 “超级计算节点”，专门用于处理AI大模型训练与推理等对算力要求极高的任务。华为CloudMatrix 384超节点通过自主研发的Unified Bus（UB）网络，将384颗Snt9b23 NPU与192颗Kunpeng CPU无缝互联，能够构建高计算密度的异构算力单元，并支撑高速内部数据流转，为AI推理等密集型任务提供强劲动力。本文将介绍CCE集群下超节点的资源架构、网络架构等信息。

CCE集群暂未开放超节点池及超节点的创建和删除入口，请通过ModelArts服务进行超节点及超节点池的创建和删除，具体请参见Lite Cluster资源开通和Lite Cluster资源管理。您在ModelArts服务购买超节点后，ModelArts会将超节点纳管至对应CCE集群，无需在CCE服务界面进行额外操作。

超节点资源架构

图1 超节点资源架构
点击放大

超节点池：由集群中一组配置相同的超节点组成，一个超节点池可包含一个或多个超节点，而每个超节点的子节点数量取决于其具体规格。超节点池本质为配置模板，所有超节点均从超节点池发放。目前，CCE超节点池不负责管理超节点及其内部节点的生命周期，仅用于统一管理动态配置（如K8S污点、标签等）。
资源生命周期：超节点内节点的生命周期与超节点保持一致。当超节点被删除时，其包含的节点会被级联删除；当超节点执行切换操作系统、重置或移除操作时，所有节点会同步执行相同操作。因此，超节点内的节点不支持单独进行删除、重置、移除或切换操作系统等操作。资源的生命周期管理需在ModelArts服务中操作，具体请参见ModelArts Lite Cluster用户指南。

超节点的网络架构

在AI大模型训练场景中，网络传输需求显著高于传统通用业务场景，传统VPC网络难以满足大规模模型训练对带宽和性能的要求。随着大模型的兴起，AI训练与推理任务已超越单卡或单机规模，通常需要多个容器实例协同运行，形成分布式任务负载。在分布式训练过程中，负载实例间的数据交互依据性能需求可划分为多级梯度，如模型并行（要求最高）和数据并行（要求次之）等，这对网络性能的要求远高于传统业务场景。针对这一核心痛点，超节点网络架构有着更好的适配性与性能优势，具体如下：

参数面网络：又称网络联通域，表示超节点间NPU互通网络，用于满足负载间数据并行的需求。
超平面网络：又称网络性能域，表示超节点内NPU互通网络，每个超节点对应一个网络性能域。各超节点内包含一组节点，节点间在参数面互通基础上，提供更高性能的网络条件，满足模型并行的诉求。

图2 网络架构

通过超节点的网络特性，可以覆盖各类并行任务的调度与通信需求，实现资源管控到负载交互全链路优化，为大模型训练与推理提供高效支撑。

超节点的调度策略

针对超节点场景，CCE提供了超节点拓扑亲和调度策略，与新的工作负载API HyperJob结合，可以将关联度高的Pod调度至同一超节点内，从而有效减少跨节点通信，降低网络延迟，并提高数据传输速度。遵循的调度原则如下，更多信息请参见超节点拓扑亲和调度：

亲和调度：HyperJob允许用户对训练作业进行亲和组划分，每个亲和组会被亲和调度到同一个超平面网络，即超节点。
装箱调度（Binpack）：HyperJob支持基于超节点的Binpack调度策略，会优先选择调度后资源利用率更高的超节点。
组调度（Gang）：HyperJob支持Gang调度，将HyperJob下的Pod看做一个整体调度，只有HyperJob的最小运行数量得到满足时，为所有Pod执行调度动作，否则，HyperJob处于pending状态。

此外，HyperJob调度成功后，系统自动生成包含NPU节点信息与超节点拓扑数据的Ranktable文件。该文件供训练框架调用，用于快速建立NPU间通信链路，实现梯度、模型参数等关键数据的高效同步。

父主题：超节点和超节点池

上一篇：超节点和超节点池

下一篇：管理超节点池和超节点