更新时间:2026-06-03 GMT+08:00
分享

场景介绍

跨云算力协同简介

跨云AI算力协同可以实现算力、数据、生态的汇聚,为大模型训练提供超级算力,促进AI算法开发行业落地,激活产业共融共生,实现绿色发展,提升能源使用效率。

以云调度算力,算力使能优先通过云方式承载,通过云服务调度各种AI算力(NPU/GPU),利用云在大规模、跨域和异构算力的统一调度能力,对跨主权云AI算力资源进行统一纳管和调度。

各主权云独立建设算力使能,独立接入云际协同,负责跨主权云算力调度,各主权云厂商作为算力供给方互相解耦,互不依赖,灵活接入和退出。

功能介绍

  • 经营层面协同:AI算力资源全局可见、账户打通、多租户用户可在本地云使用多个主权云AI算力资源。
  • 调度层面协同:多租户用户可在本地云将不同训练作业统筹调度到不同协同云智算中心,实现用户的作业和数据从一个智算中心转发到另一个智算中心运行,跨智算中心的作业和数据智能调度,实现整网算力负载均衡、利用率最大化。
  • 跨主权云协同训练:多租户用户可在本地云将一个训练作业基于切分策略各子任务调度到多个协同云智算中心进行协同训练,单个大计算作业的子任务跨智算中心分布式并行,应对单智算中心无法满足大模型训练所需算力,实现算力自由流动。
  • 多智算中心训练性能折损:跨集群相对单集群训练作业迭代时间的性能折算比例在10%以内。
  • 多智算中心扩展效率:跨智算中心统筹调度与单智算中心独立调度相比,训练计算任务可执行用时效率提升80%,提升整体智算中心资源利用率。

概念解释

  • 本地云:用户主要工作负载都保留在本地云中,本地云与协同云对接后,用户可在本地云申请使用协同云服务和AI算力、训练作业发放,实现跨云协同训练等操作。
  • 协同云:以不同主权云间开放协作作为基础,协同云与本地云对接后,将本地云用户工作负载引流至协同云,实现协同云算力利用率最大化。

相关文档