方案概述
应用场景
该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox构建弹性伸缩能力,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。Slurm工作节点云服务器采用无配置模式,Gearbox程序与弹性伸缩服务AS及云监控服务CES对接,通过监控Slurm集群作业Job状态,实时自动弹性扩缩容Slurm集群环境,并自动完成弹性扩容出来的云服务器注册并加入集群或从集群注销并完成实例销毁。
方案架构
该解决方案部署架构如下图所示:
该解决方案将会部署如下资源:
- 创建2台Linux弹性云服务器,安装开源软件Slurm,在调度节点(master)安装Gearbox程序、配置java环境。
- 创建1条弹性公网IP,用于提供访问公网和被公网访问能力。
- 创建安全组,可以保护弹性云服务器的网络安全,通过配置安全组规则,限定云服务器的访问端口。
- 使用镜像服务IMS,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。
- 使用弹性伸缩AS,创建1个弹性伸缩组,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。
- 使用云监控服务,Gearbox程序监测集群作业状态,计算自定义指标workload值,上报指标到云监控服务。
- 使用弹性文件服务SFS,挂载到所有弹性云服务器上,为集群环境提供共享文件存储服务。
方案优势
约束与限制
- 部署该解决方案之前,您需注册华为云账户,完成实名认证,且帐号不能处于欠费或冻结状态,请根据资源和成本规划中预估价格,确保余额充足。
- 请确保在部署解决方案前,使用的华为云帐号有IAM的足够权限,具体请参考3.1-创建rf_admin_trust委托。
- 确认租户配额充足:在“资源 > 我的配额”中查看以下配额是否充足,如配额不够,请提前提工单申请增加配额:
- 计算:弹性云服务器实例数、CPU核心数、RAM容量;
- 存储:云硬盘、弹性文件服务;
- 网络:虚拟私有云、子网、弹性公网IP、安全组等。