HPC管理调度插件简介
产品简介
HPC管理调度器插件是基于Slurm开发设计的端到端一站式华为云集群资源使用&管理平台,提供一键式集群交付和可视化交互界面。集成SFS-Turbo高性能文件系统,用户可在界面上可视化操作集群用户,计算资源、业务作业等,支持结构力学、流体分析、热仿真、基因测序等场景的快速建模与计算。
核心功能
功能模块 |
功能说明 |
---|---|
划分逻辑节点资源池,隔离不同团队或不同项目资源 |
|
计算资源创建、销毁、管理计算资源生命周期、监控集群各类指标 |
|
定义集群的物理拓扑结构(如机架、交换机层级),优化作业调度策略 |
|
根据用户需求提交任务,查看任务日志,作业状态,完成时间以及调度节点等信息 |
|
设置标准作业配置,一键提交任务 |
|
每个分区可以配置一个弹性策略,根据策略自动扩缩容计算节点 |
|
支持多种调度策略:优先级策略、先进先出、回填调度等 |
|
通过QoS、账户和分区实现对用户/组的资源使用限制,确保公平性和资源优先级 |
|
挂载 SFS Turbo 文件系统,实现高性能共享存储,驾舱页面支持小于 1G 文件上传下载 |
|
给节点打标签,实现同分区资源更细粒度管理 |
|
记录用户操作日志和资源使用记录 |
|
查看节点进程、系统配置、环境变量,查看下载日志 |
|
驾舱内置管理员账户,管理员可以创建、删除普通用户,集群页面按账户角色进行访问控制 |
系统架构与部署要求
架构拓扑
- 管控节点:
- Master:16核32G内存 + 300G磁盘,负责集群调度、用户管理、审计日志存储。
- SFS Turbo:提供共享文件系统,挂载路径为/mnt/sfs_turbo_1。
- 计算节点:通过驾舱Web界面或者弹性策略创建的计算节点(支持按需,包周期购买)。
部署要求
组件 |
配置要求 |
---|---|
Master |
16u32G、300G SSD、需绑定EIP |
SFS Turbo |
容量按需扩展,最小1TB,带宽≥1Gbps |
计算节点 |
通过驾舱Web界面创建,支持灵活规格选择 |
部署实施
具体步骤请参见部署实施。
其他高级特性: