文档首页/ 高性能计算 HPC/ 用户指南/ 简介/ HPC管理调度插件简介
更新时间:2025-05-21 GMT+08:00

HPC管理调度插件简介

产品简介

HPC管理调度器插件是基于Slurm开发设计的端到端一站式华为云集群资源使用&管理平台,提供一键式集群交付和可视化交互界面。集成SFS-Turbo高性能文件系统,用户可在界面上可视化操作集群用户,计算资源、业务作业等,支持结构力学、流体分析、热仿真、基因测序等场景的快速建模与计算。

核心功能

功能模块

功能说明

分区管理

划分逻辑节点资源池,隔离不同团队或不同项目资源

集群管理

计算资源创建、销毁、管理计算资源生命周期、监控集群各类指标

拓扑管理

定义集群的物理拓扑结构(如机架、交换机层级),优化作业调度策略

作业管理

根据用户需求提交任务,查看任务日志,作业状态,完成时间以及调度节点等信息

作业模板

设置标准作业配置,一键提交任务

弹性资源供给

每个分区可以配置一个弹性策略,根据策略自动扩缩容计算节点

弹性作业调度

支持多种调度策略:优先级策略、先进先出、回填调度等

配额管理

通过QoS、账户和分区实现对用户/组的资源使用限制,确保公平性和资源优先级

数据管理

挂载 SFS Turbo 文件系统,实现高性能共享存储,驾舱页面支持小于 1G 文件上传下载

标签管理

给节点打标签,实现同分区资源更细粒度管理

审计管理

记录用户操作日志和资源使用记录

集群运维

查看节点进程、系统配置、环境变量,查看下载日志

用户管理

驾舱内置管理员账户,管理员可以创建、删除普通用户,集群页面按账户角色进行访问控制

系统架构与部署要求

架构拓扑

  • 管控节点:
    • Master:16核32G内存 + 300G磁盘,负责集群调度、用户管理、审计日志存储。
    • SFS Turbo:提供共享文件系统,挂载路径为/mnt/sfs_turbo_1。
  • 计算节点:通过驾舱Web界面或者弹性策略创建的计算节点(支持按需,包周期购买)。

部署要求

组件

配置要求

Master

16u32G、300G SSD、需绑定EIP

SFS Turbo

容量按需扩展,最小1TB,带宽≥1Gbps

计算节点

通过驾舱Web界面创建,支持灵活规格选择

部署实施

具体步骤请参见部署实施

其他高级特性: