更新时间:2026-05-26 GMT+08:00
分享

创建集群

操作场景

弹性内存存储可用作LLM推理的缓存和加速器,当您的LLM推理任务需要更高的性能和更低的延迟时,您可以选择创建弹性内存存储集群来提升推理效率。本章节指导用户如何创建全新的弹性内存存储集群。

前提条件

申请公测资格并通过审核。

约束与限制

  • 请确保您所希望部署的集群有足够的资源能够满足EMS集群的正常运行。请检查所需部署EMS集群的CCE集群满足部署EMS的最小资源要求,详见表1
    表1 最小资源要求

    组件(容器Pod)

    最小规格资源预留

    ems-controller

    • VCPU:8/节点
    • 内存:8GB/节点
    • 节点个数:恒定为3节点(一主两备)

    ems-server

    • VCPU:40/节点
    • 内存:40GB/节点
    • 节点个数:5节点

    ems-zookeeper

    • VCPU:4/节点
    • 内存:8GB/节点
    • 节点个数:恒定为5节点

    ems-init

    • VCPU:1/节点
    • 内存:1GB/节点
    • 节点个数:5节点

    ems-clean-hugepage

    • VCPU:1/节点
    • 内存:1GB/节点
    • 节点个数:5节点

    ems-agent

    • VCPU:1/节点
    • 内存:1GB/节点
    • 节点个数:恒定为3节点
  • 在创建EMS集群创建过程中,将根据EMS集群运行需要以及您选择的部署配置安装创建相关的资源。详细部署资源如表2所示。
    表2 部署资源表

    云服务

    创建资源名称

    说明

    资源编排引擎(RFS)

    资源栈

    该服务用于创建EMS集群周边基础设施。当前基于RFS部署的资源包括:

    • VPC终端节点
    • 日志组、日志流、日志接入配置(基于Icagent的日志接入)
    • 安全组
    • CCE集群插件
      说明:
      • 在集群创建过程中,将为您创建名为“ems-resource-stack-{ems_cluster_id}”的资源栈,其中ems_cluster_id为集群Id。您可以通过RFS资源栈页面查看已创建的资源栈并查看上述部署资源明细。RFS资源栈信息请参见资源栈详情
      • 受限于RFS与LTS对于资源栈数量与日志组数量的限制,当前EMS集群最大部署数量不超过100,如您需要部署更多的集群,请尝试删除当前闲置资源栈或日志组。

    云容器引擎(CCE)

    日志接入配置

    用于配置基于logagent的日志接入。

    为确保EMS集群的正常运行,请勿删除EMS集群在创建流程中所部署的资源。

  • 为确保EMS集群能够正常运行,部署EMS集群时将根据您选择的部署配置,安装对应的CCE插件。如果您的CCE集群没有部署下述的插件并且勾选了对应的安装选项,EMS集群部署时将会为您自动安装缺失的插件。
    表3 安装插件描述

    插件名称

    插件版本

    功能

    安装条件

    云原生监控插件(kube-prometheus-stack)

    3.12.8

    将EMS产生的监控指标和告警信息上报到第三方AOM实例

    可选安装,在业务发放API中指定参数。

    CoreDNS域名解析(CoreDNS)

    1.30.45

    满足EMS集群网络连接正常运行需要

    必须安装

    节点本地域名解析加速(NodeLocal DNSCache)

    1.7.62

    满足EMS集群网络连接正常运行需要

    必须安装

    云原生监控插件(CCE Log Collector)

    1.7.8

    通过云原生插件的方式采集EMS集群日志

    可选安装,在业务发放API中指定参数。

    • 如果您的CCE集群已部署了云原生监控插件,请确保该插件未开启“监控数据上报至第三方监控平台”选项,避免因配置冲突导致EMS集群部署失败。
    • 如果您的CCE集群已部署了CoreDNS域名解析插件,请确保该插件规格满足EMS集群CoreDNS插件推荐配额要求,避免因规格不符导致EMS集群部署失败。
    • 请确保您当前的CCE集群版本能够安装上述版本插件,避免因插件不支持安装导致EMS集群部署失败。插件支持的CCE版本信息请查看相关文档:CCE插件概述
  • 由于创建EMS集群的过程中对资源编排、日志、CCE等各类云服务存在着依赖关系,因此当您首次创建EMS集群时,请确保已给EMS云服务授权。
  • 在创建EMS集群时,整个部署过程的时长不超过1小时。如果在1小时后集群仍然处于创建中状态,请联系技术人员进行处理。

操作步骤

在通过公测审核后,调用EMS API,发放EMS集群实例。

创建EMS集群API请参考:创建集群

相关文档