更新时间:2026-06-03 GMT+08:00
分享

资源池联邦概述

概述

资源池联邦相关章节的准备工作和标准算力集群创建需要在本地云和协同云操作,而资源池联邦的创建和管理只需要在本地云操作。

在多云环境中,不同云平台上的资源池往往存在算力资源不均衡的问题,单个资源池或Region的算力资源可能不足以支持大规模的作业运行,这限制了业务的扩展和效率。为了解决这一问题,我们提供了跨云资源池组建联邦的能力,支持将不同云平台的资源池联合,形成资源池联邦。通过资源池联邦,可以将作业下发到不同的资源池,实现跨云使用算力,有效解决单个资源池或Region算力资源不足的问题。具体而言,我们实现了HCSO(华为云Stack Online)和HC(华为云)两个云平台的A2&A3异构混合跨云联邦训练,进一步提升了资源利用效率和业务灵活性。

概念解释

资源池联邦:提供跨云资源池组建联邦的能力,支持将不同云平台的资源池联合并组建为资源池联邦。支持将作业通过资源池联邦下发到不同的资源池,从而达到跨云使用算力,解决单个资源池或者Region算力资源不足问题。实现HCSO+HC两个云的A2&A3异构混合跨云联邦训练。

操作说明

本章节主要涉及资源池联邦生命周期管理、跨云网络打通、纳管资源池、通过训练页面向资源池联邦下发训练作业等操作。

  • 本地云:用户需要完成在本地云创建标准算力集群2.0、创建资源池联邦等。
  • 协同云:用户需要完成在协同云创建标准算力集群2.0等。

相关文档