更新时间:2024-04-25 GMT+08:00
分享

方案概述

应用场景

该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。Slurm计算节点采用无配置模式,Gearbox程序与弹性伸缩 AS及云监控服务 CES对接,通过监控Slurm集群作业Job状态,实时自动弹性扩缩容Slurm集群环境;并自动完成弹性扩容出来的云服务器的注册,然后将其加入集群或从集群中注销并完成实例销毁。

方案架构

该解决方案部署架构如下图所示:

图1 方案架构图

该解决方案将会部署如下资源:

  • 创建2台Linux弹性云服务器,安装开源软件Slurm,在调度节点安装Gearbox程序、配置Java环境。
  • 创建1条弹性公网IP,用于提供访问公网和被公网访问能力。
  • 创建安全组,可以保护弹性云服务器的网络安全,通过配置安全组规则,限定云服务器的访问端口。
  • 使用镜像服务IMS,用于弹性扩容时使用该镜像配置计算节点服务器初始化环境。
  • 使用弹性伸缩AS,创建1个弹性伸缩组,通过设置弹性伸缩配置及伸缩策略来进行集群实例资源的弹性扩缩容。
  • 使用云监控服务,Gearbox程序监测集群作业状态,计算自定义指标workload值,上报指标到云监控服务。
  • 使用弹性文件服务SFS,挂载到所有弹性云服务器上,为集群环境提供共享文件存储服务。

方案优势

  • 动态扩缩容

    该解决方案配置弹性伸缩组,调度节点服务器内置Gearbox程序,该程序可周期性监测集群指标,并汇总指标数据上报云监控服务CES,由CES告警规则触发AS自动扩缩容,节约成本。

  • 个性定制化

    该解决方案及内置Gearbox程序均为开源,用户可以免费用于商业用途,并可以在源码基础上进行定制化开发。

  • 一键部署

    一键轻松部署,即可完成弹性扩缩容的HPC集群环境部署。

约束与限制

  • 该解决方案部署前,需注册华为账号并开通华为云,完成实名认证。如果计费模式选择“包年包月”,请确保账户余额充足以便一键部署资源的时候可以自动支付;或者在一键部署的过程进入费用中心,找到“待支付订单”并手动完成支付。
  • 请确保在部署解决方案前,使用的华为云账号有IAM的足够权限,具体请参考3.1-创建rf_admin_trust委托
  • 确认租户配额充足:在“资源 > 我的配额”中查看以下配额是否充足,如配额不够,请提前提工单申请增加配额:
    • 计算:弹性云服务器实例数、CPU核心数、RAM容量;
    • 存储:云硬盘、弹性文件服务;
    • 网络:虚拟私有云、子网、弹性公网IP、安全组等。

相关文档