计算集群
AI科学计算平台的Notebooks及分析作业是以容器的形式在CCE集群中运行,用户可在平台绑定本账号下的CCE集群用于这两项功能的运行。此章节详细介绍了CCE集群相关操作,如:CCE集群购买、CCE集群绑定、创建密钥和其他操作。

- 当前仅支持CCE集群1.28版本。
- 如果您没有可用的CCE集群,需先创建CCE集群。CCE 1.28仅支持使用api接口创建。
- 如果您已有CCE集群,但CCE集群版本低于1.28,则可参考升级集群的流程和方法,建议将集群升级至1.28版本。
CCE集群购买
操作步骤 |
具体操作 |
---|---|
步骤一 |
|
步骤二 |
|
步骤三 |
|
步骤四 |
- 购买CCE集群并进行相关配置
首先,用户需要购买CCE集群并进行相关配置,以满足AI科学平台使用的要求,具体操作指导如下:
- 创建虚拟私有云
- 创建CCE集群
- 左上角打开服务搜索页面,搜索“cce”,单击进入“云容器引擎”服务。
图7 云容器引擎
- 新账号首次进入“云容器引擎”服务界面,会弹窗提示授权,单击“确定”按钮即可。
如果没有弹窗,说明以前创建过授权,可以跳过此步骤继续往下进行。
图8 提示授权 - 单击右上角“购买集群”按钮。
图9 购买集群
- 在集群配置页面,根据自己需要进行设置,基础配置可参考如下:
集群类型:可选“CCE Turbo 集群”或“CCE Standard 集群”。
计费模式:可选“包年/包月”或“按需计费”。
集群版本:建议选择v1.28。
集群规模:根据使用场景可选“50节点”、“200节点”、“1000节点”或“2000节点”。
集群master实例数:建议选择“3实例(高可用)”。
图10 基础配置 - 网络配置可参考如下:
虚拟私有云与默认节点子网:选择上一步骤中创建的虚拟私有云与子网。
容器网络模型:建议选择“容器隧道网络”。
网络策略按钮:默认打开。
其他配置保持默认。
最后单击右下角“下一步:插件选择”按钮。图11 网络配置-CCE Standard 集群文档以“CCE Standard 集群”为例,如果选择创建“CCE Turbo 集群”,则容器网络模型只有“云原生网络2.0”,其他配置方式相同。
图12 网络配置-CCE Turbo 集群 - 插件选择页面,单击勾选“Volcano调度器”、“云原生日志采集插件”、“CCE节点故障检测”插件,单击右下角“下一步:插件配置”按钮。
图13 插件选择
- 插件配置页面,不需要操作,直接单击右下角“下一步:确认配置”按钮。
图14 插件配置
- 确认配置页面,左下角勾选“我已阅读并知晓上述使用说明”,然后单击右下角“提交”按钮。
图15 确认配置
- 创建集群任务提交成功后,等待几分钟,集群创建成功,页面显示如图16 任务提交成功。
- 云容器引擎集群管理页面,集群展示如图17 集群管理所示。
- 左上角打开服务搜索页面,搜索“cce”,单击进入“云容器引擎”服务。
- 打开日志采集配置
- 单击集群名称,找到日志中心-->授权说明弹窗,单击“确定”按钮。
图18 授权说明
- 在容器日志界面,日志采集与管理下方,单击“开启”按钮。
图19 开启日志采集与管理
- 单击集群名称,找到日志中心-->授权说明弹窗,单击“确定”按钮。
- 节点标签配置
- 用户根据自己需要创建好节点后,单击右侧“更多 > 标签管理”按钮。
图20 标签管理
- 在标签管理弹窗单击“+添加”按钮添加标签,然后单击“确定”按钮。
图21 添加标签
平台功能涉及标签及对应功能如表2所示,请用户根据需求进行标签配置,以控制分析作业的部分任务的调度节点。
表2 平台功能涉及标签及对应功能 标签
功能
health-evs=true
若存在节点挂载了容量较大的数据盘,分析作业的加速方式选择了“本地盘加速”,则需在该节点配置标签,使得作业可调度到该节点上。
health.copy-in=true
若分析作业的加速方式选择了“IO加速”,则需选择节点配置标签使得作业可调度到该节点上。
health.{自定义}=true
若分析作业的高级参数中配置了“计算节点标签”,则需在希望调度上的节点配置相应标签。
若用户新增了其他节点,需重复以上动作进行标签配置。
- 用户根据自己需要创建好节点后,单击右侧“更多 > 标签管理”按钮。
- MA Lite资源池纳管CCE集群(可选)
如果需要使用昇腾卡资源,请根据以下操作创建MA Lite资源池。如果不需要使用昇腾卡资源请跳过此章节。
- 创建MA Lite资源池
- 左上角打开服务搜索页面,搜索“ModelArts”,单击进入“AI开发平台ModelArts”服务。
图22 AI开发平台ModelArts
- 在AI开发平台ModelArts页面,单击“轻量算力集群”,单击“此处”按钮。
图23 轻量算力集群
- 添加授权页面,授权对象类型选择“IAM子用户”,授权对象自动回填为当前账号,委托选择为“新增委托”。
图24 添加授权1
- 服务列表选择“全选”,勾选左下角协议,然后单击右下角“创建”按钮。
图25 添加授权2
- AI开发平台ModelArts页面,单击“ 购买轻量算力集群”按钮。
图26 购买轻量算力集群
- 在购买轻量算力集群页面,根据自己需要,计费模式选择“包年/包月”,集群名称可自定义编辑修改,购买方案选择“ModelArts Lite Elastic Cluster (原生接口)”,选择CCE集群为上述步骤中创建的CCE集群。
图27 计费模式和集群规格
- CPU架构选择arm64,实例规格类型选择Ascend,实例规格选择的昇腾卡规格。
图28 默认规格
- 登录凭证选择密钥对,单击“创建密钥对”按钮。
图29 创建密钥对
- 跳转到数据加密控制台后,单击“密钥对管理 > 账号密钥对 > 创建密钥对”按钮。
图30 创建密钥对
- 在创建密钥对的弹窗中,名称可以根据自己需要修改,其他配置默认,最后单击“确定”按钮。
图31 创建密钥对配置
- 密钥对创建成功,需要根据页面提示下载并保存在本地。
图32 确定
- 返回到购买轻量算力集群页面的登录凭证配置中,选择“密钥对”,单击“刷新”按钮,上一步中创建的密钥对会自动回填进来,选择购买时长,然后单击右下角“立即购买”按钮。
图33 回填密钥对
- 勾选协议许可后,单击右下角“去支付”按钮。
图34 确认配置
- 支付订单后可看到Lite资源池正在创建中。
图35 Lite资源池正在创建中
- 左上角打开服务搜索页面,搜索“ModelArts”,单击进入“AI开发平台ModelArts”服务。
- 创建MA Lite资源池
- CCE集群安全配置建议(可选)
用户创建CCE集群后,如果需要进行安全配置,请自行参考CCE提供的帮助文档进行安全配置操作。
- CCE集群插件安装(可选)
- 安装NPU插件
- 进入CCE集群,插件中心中搜索“NPU”,单击“安装”按钮。
图36 安装NPU插件1
- 进入安装插件页面,单击右下角“安装”按钮。
图37 安装NPU插件2
- 进入CCE集群,插件中心中搜索“NPU”,单击“安装”按钮。
- 安装GPU插件
- 进入CCE集群,插件中心中搜索“GPU”,单击“安装”按钮。
图38 安装GPU插件1
- 进入安装插件页面,单击右下角“安装”按钮。
图39 安装GPU插件2
- 进入CCE集群,插件中心中搜索“GPU”,单击“安装”按钮。
- 安装NPU插件
CCE集群绑定
完成CCE集群创建后,用户可进入AI科学计算平台进行计算集群绑定。
- 单击右上角账号名,选择“资源订购”,进入“计算集群”页面,单击“绑定集群”按钮。
图40 绑定集群1
- 在“绑定集群”弹窗中,选择上面步骤创建的CCE集群。
图41 绑定集群2
此处仅展示符合AI科学计算平台约束的CCE集群。若未展示,请检查集群类型、集群版本是否在支持的版本范围内,集群状态是否为可用状态。
- 单击绑定后,查看集群绑定状态为“绑定中”,需等待几分钟。
图42 绑定中
创建密钥

在开发生产创建分析作业或者Notebooks时需要最终租户提前在绑定的CCE集群中创建密钥,子用户无需手动创建。
- 获取最终租户的AK、SK。
- 登录华为云控制台。
图43 控制台
- 鼠标悬浮在右上角用户名处,单击“我的凭证 > 访问密钥”。
图44 我的凭证
- 单击“新增访问密钥”,填写描述信息,单击“确定”创建最终租户密钥。
图45 新增访问密钥
- 单击“立即下载”保存密钥。
图46 成功创建访问密钥
- 登录华为云控制台。
- 给绑定的CCE集群创建密钥。
- 左上角打开服务搜索页面,搜索cce,单击进入“云容器引擎”服务。
图47 云容器引擎
- 选择已经绑定到平台的集群,单击名称进入云容器引擎详情。
图48 云容器引擎详情
- 左边导航栏选择“配置与密钥”,单击“密钥 > 创建密钥”。
图49 云容器引擎配置与密钥
- “名称”填写“ai4s-secret”、“密钥类型”选择“其他”并填写“cfe/secure-opaque”,“密钥数据”新增“access.key”和“secret.key”,值分别填写步骤一保存的AK和SK、“标签管理”填写“secret.kubernetes.io/used-by=csi”,单击“确定”。
图50 创建密钥
- 左上角打开服务搜索页面,搜索cce,单击进入“云容器引擎”服务。
其他操作
- 管理集群
若用户需对集群进行相关操作,如节点管理、标签设置等,可单击“管理集群”按钮跳转至CCE控制台页面进行操作。
图51 管理集群 - 解除绑定
由于性能加速实例依赖计算集群创建,故解绑集群前,请进入“性能加速”页面完成所有实例解绑后,再解绑集群。
如图52所示,若性能加速中仍有实例,“解除绑定”按钮置灰,并提示“请先解绑性能加速”。
进入“性能加速”页面,进行实例解绑。
图53 实例解绑再进入“计算集群”页面,进行集群解绑。
图54 集群解绑 - 重试
图55 重试