插件概述
CCE提供了多种类型的插件,用于管理集群的扩展功能,以支持选择性扩展满足特性需求的功能。
CCE插件采用Helm模板方式部署,修改或升级插件请从插件配置页面或开放的插件管理API进行操作。勿直接后台直接修改插件相关资源,以免插件异常或引入其他非预期问题。
插件名称 |
插件简介 |
---|---|
CoreDNS域名解析插件是一款通过链式插件的方式为Kubernetes提供域名解析服务的DNS服务器。 |
|
CCE容器存储插件(Everest)是一个云原生容器存储系统,基于CSI为Kubernetes v1.15.6及以上版本集群对接云存储服务的能力。 |
|
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行, 也可以独立运行。 |
|
Kubernetes Dashboard是Kubernetes集群基于Web的通用UI,集合了命令行可以操作的所有命令。它允许用户管理在集群中运行应用程序并对其进行故障排除,以及管理集群本身。 |
|
集群自动扩缩容插件autoscaler,是根据pod调度状态及资源使用情况对集群的工作节点进行自动扩容缩容的插件。 |
|
Metrics-Server是集群核心资源监控数据的聚合器。 |
|
CCE容器弹性引擎插件是一款CCE自研的插件,能够基于CPU利用率、内存利用率等指标,对无状态工作负载进行弹性扩缩容。 |
|
Prometheus是一套开源的系统监控报警框架。在云容器引擎CCE中,支持以插件的方式快捷安装Prometheus。 |
|
CCE AI套件(NVIDIA GPU)是支持在容器中使用GPU显卡的设备管理插件,仅支持Nvidia驱动。 |
|
CCE AI套件(Ascend NPU)是支持容器里使用Huawei NPU设备的管理插件。 |
|
Volcano调度器提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户。 |
|
NGINX Ingress控制器为Service提供了可直接被集群外部访问的虚拟主机、负载均衡、SSL代理、HTTP路由等应用层转发功能。 |
|
CCE密钥管理插件用于对接(Data Encryption Workshop, DEW)。该插件允许用户将存储在集群外部(即专门存储敏感信息的数据加密服务)的凭据挂载至业务Pod内,从而将敏感信息与集群环境解耦,有效避免程序硬编码或明文配置等问题导致的敏感信息泄密。 |
|
CCE容器网络扩展指标是一款容器网络流量监控管理插件。支持流量统计信息ipv4发送公网报文数和字节数、ipv4接收报文数和字节数以及ipv4发送报文数和字节数,且支持通过PodSelector来对监控后端作选择,支持多监控任务、可选监控指标,且支持用户获取Pod的label标签信息。监控信息已适配Prometheus格式,可以通过调用Prometheus接口查看监控数据。 |
|
NodeLocal DNSCache通过在集群节点上作为守护程序集运行DNS缓存代理,提高集群DNS性能。 |
插件生命周期
生命周期是指插件从安装到卸载历经的各种状态。
状态 |
状态属性 |
说明 |
---|---|---|
运行中 |
稳定状态 |
插件正常运行状态,所有插件实例均正常部署,插件可正常使用。 |
部分就绪 |
稳定状态 |
插件正常运行状态,部分插件实例未正常部署。此状态下,插件功能可能无法正常使用。 |
不可用 |
稳定状态 |
插件异常状态,所有插件实例均未正常部署。 |
安装中 |
中间状态 |
插件正处于部署状态。 如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。 |
安装失败 |
稳定状态 |
插件安装失败,需要卸载后重新安装。 |
升级中 |
中间状态 |
插件正处于更新状态。 |
升级失败 |
稳定状态 |
插件升级失败,可重试升级或卸载后重新安装。 |
回滚中 |
中间状态 |
插件正在回滚中。 |
回滚失败 |
稳定状态 |
插件回滚失败,可重试回滚或卸载后重新安装。 |
删除中 |
中间状态 |
插件处于正在被删除的状态。 如果长时间处于该状态,则说明出现异常。 |
删除失败 |
稳定状态 |
插件删除失败,可重试卸载。 |
未知状态 |
稳定状态 |
插件模板实例不存在。 |
当插件处于“安装中”或“删除中”等中间状态时,不可进行编辑、卸载等相关操作。
当插件状态处于“未知状态”且对应插件返回信息的status.Reason字段为"don't install the addon in this cluster"时,一般为集群中对应插件的helm release关联secret被误删导致,此类场景可先卸载插件,然后以相同配置参数重新安装插件恢复。
插件相关操作
操作 |
说明 |
操作步骤 |
---|---|---|
安装 |
安装指定的插件。 |
|
升级 |
将插件升级至新版。 |
|
编辑 |
编辑插件参数。 |
|
卸载 |
将插件从集群中卸载。 |
|
回滚 |
将插件回滚至升级前版本。
说明:
|
|
插件回滚能力需要插件版本支持,支持的插件及版本如下:
- coredns:1.25.11及以上版本支持回滚
- everest:2.1.19及以上版本支持回滚
- autoscaler:
- v1.21集群:1.21.22及以上版本支持回滚
- v1.23集群:1.23.24及以上版本支持回滚
- v1.25集群:1.25.14及以上版本支持回滚
- kube-prometheus-stack:3.7.2及以上版本支持回滚
- volcano:1.11.4及以上版本支持回滚
- npd:1.18.22及以上版本支持回滚