更新时间:2025-07-24 GMT+08:00
分享

计算集群

AI科学计算平台的Notebooks及分析作业是以容器的形式在CCE集群中运行,用户可在平台绑定本账号下的CCE集群用于这两项功能的运行。此章节详细介绍了CCE集群相关操作,如:CCE集群购买CCE集群绑定创建密钥其他操作

  • 当前仅支持CCE集群1.28版本。
  • 如果您没有可用的CCE集群,需先创建CCE集群。CCE 1.28仅支持使用api接口创建
  • 如果您已有CCE集群,但CCE集群版本低于1.28,则可参考升级集群的流程和方法,建议将集群升级至1.28版本。

CCE集群购买

  1. 购买CCE集群并进行相关配置

    首先,用户需要购买CCE集群并进行相关配置,以满足AI科学平台使用的要求,具体操作指导如下:

    1. 创建虚拟私有云
      • 登录华为云控制台
        图1 控制台
      • 左上角打开服务搜索页面,搜索“vpc”,单击进入“虚拟私有云”服务。
        图2 虚拟私有云
      • 单击右上角“创建虚拟私有云”按钮。
        图3 创建虚拟私有云
      • 虚拟私有云名称与子网名称可以根据用户要求自行修改,其他配置默认即可,最后单击右下角“立即创建”按钮。
        图4 立即创建
      • 检查创建好的虚拟私有云如图5所示。
        图5 创建好的虚拟私有云
      • 检查创建好的子网如图6所示。
        图6 创建好的子网
    2. 创建CCE集群
      • 左上角打开服务搜索页面,搜索“cce”,单击进入“云容器引擎”服务。
        图7 云容器引擎
      • 新账号首次进入“云容器引擎”服务界面,会弹窗提示授权,单击“确定”按钮即可。

        如果没有弹窗,说明以前创建过授权,可以跳过此步骤继续往下进行。

        图8 提示授权
      • 单击右上角“购买集群”按钮。
        图9 购买集群
      • 在集群配置页面,根据自己需要进行设置,基础配置可参考如下:

        集群类型:可选“CCE Turbo 集群”或“CCE Standard 集群”。

        计费模式:可选“包年/包月”或“按需计费”。

        集群版本:建议选择v1.28。

        集群规模:根据使用场景可选“50节点”、“200节点”、“1000节点”或“2000节点”。

        集群master实例数:建议选择“3实例(高可用)”。

        图10 基础配置

        AI科学计算服务只支持v1.28版本的CCE集群,仅支持使用api接口创建

      • 网络配置可参考如下:

        虚拟私有云与默认节点子网:选择上一步骤中创建的虚拟私有云与子网

        容器网络模型:建议选择“容器隧道网络”。

        网络策略按钮:默认打开。

        其他配置保持默认。

        最后单击右下角“下一步:插件选择”按钮。
        图11 网络配置-CCE Standard 集群

        文档以“CCE Standard 集群”为例,如果选择创建“CCE Turbo 集群”,则容器网络模型只有“云原生网络2.0”,其他配置方式相同。

        图12 网络配置-CCE Turbo 集群
      • 插件选择页面,单击勾选“Volcano调度器”、“云原生日志采集插件”、“CCE节点故障检测”插件,单击右下角“下一步:插件配置”按钮。
        图13 插件选择
      • 插件配置页面,不需要操作,直接单击右下角“下一步:确认配置”按钮。
        图14 插件配置
      • 确认配置页面,左下角勾选“我已阅读并知晓上述使用说明”,然后单击右下角“提交”按钮。
        图15 确认配置
      • 创建集群任务提交成功后,等待几分钟,集群创建成功,页面显示如图16 任务提交成功
        图16 任务提交成功
      • 云容器引擎集群管理页面,集群展示如图17 集群管理所示。
        图17 集群管理
    3. 打开日志采集配置
      • 单击集群名称,找到日志中心-->授权说明弹窗,单击“确定”按钮。
        图18 授权说明
      • 在容器日志界面,日志采集与管理下方,单击“开启”按钮。
        图19 开启日志采集与管理
    4. 节点标签配置
      • 用户根据自己需要创建好节点后,单击右侧“更多 > 标签管理”按钮。
        图20 标签管理
      • 在标签管理弹窗单击“+添加”按钮添加标签,然后单击“确定”按钮。
        图21 添加标签

        平台功能涉及标签及对应功能如表2所示,请用户根据需求进行标签配置,以控制分析作业的部分任务的调度节点。

        表2 平台功能涉及标签及对应功能

        标签

        功能

        health-evs=true

        若存在节点挂载了容量较大的数据盘,分析作业的加速方式选择了“本地盘加速”,则需在该节点配置标签,使得作业可调度到该节点上。

        health.copy-in=true

        若分析作业的加速方式选择了“IO加速”,则需选择节点配置标签使得作业可调度到该节点上。

        health.{自定义}=true

        若分析作业的高级参数中配置了“计算节点标签”,则需在希望调度上的节点配置相应标签。

        若用户新增了其他节点,需重复以上动作进行标签配置。

  2. MA Lite资源池纳管CCE集群(可选)

    如果需要使用昇腾卡资源,请根据以下操作创建MA Lite资源池。如果不需要使用昇腾卡资源请跳过此章节。

    1. 创建MA Lite资源池
      • 左上角打开服务搜索页面,搜索“ModelArts”,单击进入“AI开发平台ModelArts”服务。
        图22 AI开发平台ModelArts
      • 在AI开发平台ModelArts页面,单击“轻量算力集群”,单击“此处”按钮。
        图23 轻量算力集群
      • 添加授权页面,授权对象类型选择“IAM子用户”,授权对象自动回填为当前账号,委托选择为“新增委托”。
        图24 添加授权1
      • 服务列表选择“全选”,勾选左下角协议,然后单击右下角“创建”按钮。
        图25 添加授权2
      • AI开发平台ModelArts页面,单击“ 购买轻量算力集群”按钮。
        图26 购买轻量算力集群
      • 在购买轻量算力集群页面,根据自己需要,计费模式选择“包年/包月”,集群名称可自定义编辑修改,购买方案选择“ModelArts Lite Elastic Cluster (原生接口)”,选择CCE集群为上述步骤中创建的CCE集群
        图27 计费模式和集群规格
      • CPU架构选择arm64,实例规格类型选择Ascend,实例规格选择的昇腾卡规格。
        图28 默认规格
      • 登录凭证选择密钥对,单击“创建密钥对”按钮。
        图29 创建密钥对
      • 跳转到数据加密控制台后,单击“密钥对管理 > 账号密钥对 > 创建密钥对”按钮。
        图30 创建密钥对
      • 在创建密钥对的弹窗中,名称可以根据自己需要修改,其他配置默认,最后单击“确定”按钮。
        图31 创建密钥对配置
      • 密钥对创建成功,需要根据页面提示下载并保存在本地。
        图32 确定
      • 返回到购买轻量算力集群页面的登录凭证配置中,选择“密钥对”,单击“刷新”按钮,上一步中创建的密钥对会自动回填进来,选择购买时长,然后单击右下角“立即购买”按钮。
        图33 回填密钥对
      • 勾选协议许可后,单击右下角“去支付”按钮。
        图34 确认配置
      • 支付订单后可看到Lite资源池正在创建中。
        图35 Lite资源池正在创建中

  3. CCE集群安全配置建议(可选)

    用户创建CCE集群后,如果需要进行安全配置,请自行参考CCE提供的帮助文档进行安全配置操作

  4. CCE集群插件安装(可选)

    1. 安装NPU插件
      • 进入CCE集群,插件中心中搜索“NPU”,单击“安装”按钮。
        图36 安装NPU插件1
      • 进入安装插件页面,单击右下角“安装”按钮。
        图37 安装NPU插件2
    2. 安装GPU插件
      • 进入CCE集群,插件中心中搜索“GPU”,单击“安装”按钮。
        图38 安装GPU插件1
      • 进入安装插件页面,单击右下角“安装”按钮。
        图39 安装GPU插件2

CCE集群绑定

完成CCE集群创建后,用户可进入AI科学计算平台进行计算集群绑定。

  1. 单击右上角账号名,选择“资源订购”,进入“计算集群”页面,单击“绑定集群”按钮。
    图40 绑定集群1

  2. 在“绑定集群”弹窗中,选择上面步骤创建的CCE集群。
    图41 绑定集群2

    此处仅展示符合AI科学计算平台约束的CCE集群。若未展示,请检查集群类型、集群版本是否在支持的版本范围内,集群状态是否为可用状态。

  3. 单击绑定后,查看集群绑定状态为“绑定中”,需等待几分钟。

    绑定完成后,即可使用Notebook和分析作业功能模块。

    图42 绑定中

创建密钥

在开发生产创建分析作业或者Notebooks时需要最终租户提前在绑定的CCE集群中创建密钥,子用户无需手动创建。

  1. 获取最终租户的AK、SK。

    • 登录华为云控制台
      图43 控制台
    • 鼠标悬浮在右上角用户名处,单击“我的凭证 > 访问密钥”
      图44 我的凭证
    • 单击“新增访问密钥”,填写描述信息,单击“确定”创建最终租户密钥。
      图45 新增访问密钥
    • 单击“立即下载”保存密钥。
      图46 成功创建访问密钥

  2. 给绑定的CCE集群创建密钥。

    • 左上角打开服务搜索页面,搜索cce,单击进入“云容器引擎”服务。
      图47 云容器引擎
    • 选择已经绑定到平台的集群,单击名称进入云容器引擎详情。
      图48 云容器引擎详情
    • 左边导航栏选择“配置与密钥”,单击“密钥 > 创建密钥”
      图49 云容器引擎配置与密钥
    • “名称”填写“ai4s-secret”“密钥类型”选择“其他”并填写“cfe/secure-opaque”“密钥数据”新增“access.key”“secret.key”,值分别填写步骤一保存的AK和SK、“标签管理”填写“secret.kubernetes.io/used-by=csi”,单击“确定”
      图50 创建密钥

其他操作

  • 管理集群

    若用户需对集群进行相关操作,如节点管理、标签设置等,可单击“管理集群”按钮跳转至CCE控制台页面进行操作。

    图51 管理集群
  • 解除绑定

    由于性能加速实例依赖计算集群创建,故解绑集群前,请进入“性能加速”页面完成所有实例解绑后,再解绑集群。

    图52所示,若性能加速中仍有实例,“解除绑定”按钮置灰,并提示“请先解绑性能加速”。

    图52 解绑性能加速

    进入“性能加速”页面,进行实例解绑。

    图53 实例解绑

    再进入“计算集群”页面,进行集群解绑。

    图54 集群解绑
  • 重试

    若集群绑定或者解绑失败,可单击“重试”按钮,进行重试。

    图55 重试

相关文档