文档首页 > > 用户指南> 集群管理> 购买GPU集群

购买GPU集群

分享
更新时间: 2020/05/18 GMT+08:00

混合集群支持支持GPU、NPU等异构节点的混合部署,GPU集群是指使用GPU节点部署的集群,支持主流AI计算框架、支持多容器共享GPU资源。

自从1.8版本开始,Kubernetes已经明确将通过统一的设备插件方式支持像Nvidia GPU,InfiniBand,FPGA等硬件加速设备,而社区的GPU方案已在1.10全面弃用,并在1.11版本彻底从主干代码移除。

若您需要通过华为云GPU容器集群运行机器学习、科学计算、AI推理等高运算密度任务,无需安装nvidia driver,就能实现一键部署和弹性扩缩容等功能。

使用限制

  • 每个账号默认可以创建的云资源有一定的配额,如果超过配额创建集群会失败。请在创建集群前确认您的配额,查看配额请参见关于配额。如果您需要提高您的配额,请提交工单申请。
  • Kubernetes 1.9版本的集群,GPU组件默认强制安装;Kubernetes 1.11及以上版本的集群,GPU能力以插件的方式外接提供,需要您在“插件管理”中安装GPU-beta插件。
  • ECS 实例使用限制:CUDA需要您自行在镜像中安装。

购买GPU集群

混合集群支持支持GPU、NPU等异构节点的混合部署,其购买方式与混合集群基本类似,你只需在创建混合集群时的“创建节点”步骤中选择“GPU加速型”下的节点规格即可。

  1. 登录CCE控制台,在左侧导航栏中单击“资源管理 > 集群管理”,进入集群列表页面。
  2. 单击页面右上角“混合集群”右侧的“购买”按钮,进入购买集群页面。

    由于GPU集群与混合集群的Master节点和创建步骤一致,区别在于Node节点使用GPU类型的ECS,因此购买GPU集群的入口现已统一到“购买混合集群”

    图1 购买GPU集群

  3. 请参考购买混合集群时的操作步骤,填写服务选项参数。
  4. “创建节点”步骤中,注意参照如下参数配置节点。

    • 节点规格:请根据业务需求选择“GPU加速型”下的节点规格。
      图2 选择GPU节点规格

      为确保节点稳定性,系统会自动预留部分资源,运行必须的系统组件。详细请参见节点预留资源计算公式

  5. 其他操作与购买混合集群一致,确认规格和费用后,单击“提交”,集群开始创建。

    若选择购买“包年包月”的集群,请单击“去支付”,根据界面提示进行付款操作。

    集群创建预计需要6-10分钟,您可以单击“返回集群管理”进行其他操作或单击“查看集群事件列表”后查看集群详情。

相关操作

  • 创建命名空间:同个集群内可创建多个命名空间,形成逻辑上的不同分组,便于不同的分组在共享使用集群资源时还能被分别管理。若您需要为集群创建命名空间,请参见命名空间
  • 创建工作负载:集群创建完成后,您可以使用镜像创建一个可公网访问的应用,请参见创建无状态负载(Deployment)创建有状态负载(StatefulSet)
  • 单击已成功创建的集群名称,进入“集群详情”页可查看集群详情。
    表1 已创建的集群详情

    页签类别

    说明

    集群详情

    可查看该集群的详情及运行状态等。

    监控

    查看集群近1小时、近3小时或近12小时的CPU和内存占用情况。

    事件

    • 可以直接在“事件”页签下查看集群的事件。
    • 可以设置查询条件,比如设置事件产生的时间段或搜索事件名称,查看相关事件。
分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问