更新时间:2024-04-28 GMT+08:00
分享

方案概述

应用场景

该解决方案能帮您快速在华为云CCE容器集群上快速部署Volcano批量调度系统,在原生 K8s 的基础上,补齐了Job调度和设备管理等多方面的短板,为客户提供通用、可扩展、高性能、稳定的原生批量计算平台,方便以 Kubeflow 、 KubeGene 、 Spark 为代表的上层业务组件集成和使用。通过与 Volcano 的集成,可以同时调度 Flink 的作业和任务管理器,适用于资源不足的集群。

方案架构

该解决方案部署架构如下图所示:
图1 方案架构

该解决方案会部署如下资源:

  • 创建3个控制节点的高可用云容器引擎 CCE集群,提供计算节点的纳管和业务系统的管理调度能力。
  • 部署1个弹性云服务器 ECS节点,作为集群的计算节点,用于承载业务系统。
  • 部署1个弹性公网IP EIP并关联计算节点,提供公网访问能力。
  • 部署1个Volcano插件,提供通用、可扩展、高性能、稳定的原生批量计算平台。

方案优势

  • 丰富的计算框架支持

    通过CRD提供了批量计算任务的通用API,通过提供丰富的插件及作业生命周期高级管理,支持TensorFlow,MPI,Spark等计算框架容器化运行在Kubernetes上。

  • 高级调度

    面向批量计算、高性能计算场景提供丰富的高级调度能力,包括成组调度,优先级抢占、装箱、资源预留、任务拓扑关系等。

  • 队列管理

    支持分队列调度,提供队列优先级、多级队列等复杂任务调度能力。

约束与限制

  • 该解决方案部署前,需注册华为账号并开通华为云,完成实名认证,且账号不能处于欠费或冻结状态。如果计费模式选择“包年包月”,请确保账户余额充足以便一键部署资源的时候可以自动支付;或者在一键部署的过程进入费用中心,找到“待支付订单”并手动完成支付。
  • 该解决方案部署成功后,搭建大约用时15分钟,完成后方可参考开始使用进行验证。

相关文档