GPU虚拟化节点弹性伸缩配置
当集群中GPU虚拟化资源不足时,支持自动进行GPU节点的弹性伸缩。本文将指导您如何创建GPU虚拟化节点的弹性伸缩策略。
前提条件
- 已创建一个v1.28或v1.29版本的集群。
- 在集群中安装CCE AI套件(NVIDIA GPU)(2.7.5及以上版本)、Volcano调度器及CCE集群弹性引擎(1.28.78或1.29.41及以上版本)。
步骤一:节点池配置
- 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。
- 单击“创建节点池”,创建一个GPU虚拟化规格的节点池,操作详情请参见创建节点池。
关于GPU虚拟化节点的规格、操作系统、容器引擎、操作系统要求请参见准备GPU虚拟化资源。
- 节点池创建完成后,单击“弹性伸缩”,在“伸缩对象”中将目标规格的“弹性伸缩”按钮开启,然后单击“确定”进行保存。
步骤二:异构资源配置
- 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。
- 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。
- 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。
图1 异构资源配置
- 单击“确认配置”进行保存。
步骤三:创建GPU虚拟化负载并扩容
参考使用GPU虚拟化章节,创建使用GPU虚拟化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。例如:集群中有16GiB显存的资源,假设每个Pod占用1GiB显存,则设置Pod数量为17个,合计17GiB显存。
在等待一小段时间后,可以在节点池详情页面中,可观察到GPU节点的扩容。