- 最新动态
- 功能总览
-
服务公告
- 最新公告
- 产品变更公告
- 集群版本公告
-
漏洞公告
- 漏洞修复策略
- Kubernetes安全漏洞公告(CVE-2024-10220)
- Kubernetes安全漏洞公告(CVE-2024-9486,CVE-2024-9594)
- NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132)
- Linux CUPS服务RCE 漏洞公告(CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177)
- NGINX Ingress控制器验证绕过漏洞公告(CVE-2024-7646)
- Docker Engine授权插件AuthZ权限绕过漏洞公告(CVE-2024-41110)
- Linux内核权限提升漏洞公告(CVE-2024-1086)
- OpenSSH远程代码执行漏洞公告(CVE-2024-6387)
- Fluent Bit内存崩溃漏洞公告(CVE-2024-4323)
- runc systemd属性注入漏洞公告(CVE-2024-3154)
- runc漏洞(CVE-2024-21626)对CCE服务的影响说明
- Kubernetes安全漏洞公告(CVE-2022-3172)
- Linux Kernel openvswitch 模块权限提升漏洞预警(CVE-2022-2639)
- nginx-ingress插件安全漏洞预警公告(CVE-2021-25748)
- nginx-ingress插件安全漏洞预警公告(CVE-2021-25745,CVE-2021-25746)
- containerd容器进程权限提升漏洞公告(CVE-2022-24769)
- CRI-O容器运行时引擎任意代码执行漏洞(CVE-2022-0811)
- linux内核导致的容器逃逸漏洞公告(CVE-2022-0492)
- containerd镜像Volume非安全处理漏洞公告(CVE-2022-23648)
- Linux内核整数溢出漏洞(CVE-2022-0185)
- Linux Polkit 权限提升漏洞预警(CVE-2021-4034)
- Kubernetes subpath符号链接交换安全漏洞(CVE-2021- 25741)
- runc符号链接挂载与容器逃逸漏洞预警公告(CVE-2021-30465)
- Docker资源管理错误漏洞公告(CVE-2021-21285)
- NVIDIA GPU驱动漏洞公告(CVE-2021-1056)
- Sudo缓冲区错误漏洞公告(CVE-2021-3156)
- Kubernetes安全漏洞公告(CVE-2020-8554)
- Apache containerd安全漏洞公告(CVE-2020-15257)
- Docker Engine输入验证错误漏洞公告(CVE-2020-13401)
- Kubernetes kube-apiserver输入验证错误漏洞公告(CVE-2020-8559)
- Kubernetes kubelet资源管理错误漏洞公告(CVE-2020-8557)
- Kubernetes kubelet和kube-proxy授权问题漏洞公告(CVE-2020-8558)
- 修复Kubernetes HTTP/2漏洞公告
- 修复Linux内核SACK漏洞公告
- 修复Docker操作系统命令注入漏洞公告(CVE-2019-5736)
- 全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105)
- 修复Kubernetes Dashboard安全漏洞公告(CVE-2018-18264)
-
产品发布记录
-
集群版本发布记录
- Kubernetes版本策略
-
Kubernetes版本发布记录
- Kubernetes 1.31版本说明
- Kubernetes 1.30版本说明
- Kubernetes 1.29版本说明
- Kubernetes 1.28版本说明
- Kubernetes 1.27版本说明
- Kubernetes 1.25版本说明
- Kubernetes 1.23版本说明
- (停止维护)Kubernetes 1.21版本说明
- (停止维护)Kubernetes 1.19版本说明
- (停止维护)Kubernetes 1.17版本说明
- (停止维护)Kubernetes 1.15版本说明
- (停止维护)Kubernetes 1.13版本说明
- (停止维护)Kubernetes 1.11版本说明
- (停止维护)Kubernetes 1.9及之前版本说明
- 补丁版本发布记录
- 操作系统镜像发布记录
-
插件版本发布记录
- CoreDNS域名解析插件版本发布记录
- CCE容器存储插件(Everest)版本发布记录
- CCE节点故障检测插件版本发布记录
- Kubernetes Dashboard插件版本发布记录
- CCE集群弹性引擎版本发布记录
- NGINX Ingress控制器插件版本发布记录
- Kubernetes Metrics Server插件版本发布记录
- CCE容器弹性引擎插件版本发布记录
- CCE突发弹性引擎(对接CCI)插件版本发布记录
- CCE AI套件(NVIDIA GPU)版本发布记录
- CCE AI套件(Ascend NPU)版本发布记录
- Volcano调度器版本发布记录
- CCE密钥管理(对接 DEW)插件版本发布记录
- CCE容器网络扩展指标插件版本发布记录
- 节点本地域名解析加速插件版本发布记录
- 云原生监控插件版本发布记录
- 云原生日志采集插件版本发布记录
- 容器镜像签名验证插件版本发布记录
- Grafana插件版本发布记录
- OpenKruise插件版本发布记录
- Gatekeeper插件版本发布记录
- 容器垂直弹性引擎版本发布记录
- CCE集群备份恢复插件版本发布记录(停止维护)
- Kubernetes Web终端版本发布记录(停止维护)
- Prometheus插件版本发布记录(停止维护)
-
集群版本发布记录
- 产品介绍
- 计费说明
- Kubernetes基础知识
- 快速入门
-
用户指南
- 高危操作一览
-
集群
- 集群概述
-
集群版本发布说明
-
Kubernetes版本发布记录
- Kubernetes 1.31版本说明
- Kubernetes 1.30版本说明
- Kubernetes 1.29版本说明
- Kubernetes 1.28版本说明
- Kubernetes 1.27版本说明
- Kubernetes 1.25版本说明
- Kubernetes 1.23版本说明
- (停止维护)Kubernetes 1.21版本说明
- (停止维护)Kubernetes 1.19版本说明
- (停止维护)Kubernetes 1.17版本说明
- (停止维护)Kubernetes 1.15版本说明
- (停止维护)Kubernetes 1.13版本说明
- (停止维护)Kubernetes 1.11版本说明
- (停止维护)Kubernetes 1.9及之前版本说明
- 补丁版本发布记录
-
Kubernetes版本发布记录
- 购买集群
- 连接集群
- 管理集群
-
升级集群
- 升级集群的流程和方法
- 升级前须知
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查异常处理
- 升级管控检查异常处理
- 插件检查异常处理
- Helm模板检查异常处理
- Master节点SSH连通性检查异常处理
- 节点池检查异常处理
- 安全组检查异常处理
- 残留待迁移节点检查异常处理
- K8s废弃资源检查异常处理
- 兼容性风险检查异常处理
- 节点上CCE Agent版本检查异常处理
- 节点CPU使用率检查异常处理
- CRD检查异常处理
- 节点磁盘检查异常处理
- 节点DNS检查异常处理
- 节点关键目录文件权限检查异常处理
- 节点Kubelet检查异常处理
- 节点内存检查异常处理
- 节点时钟同步服务器检查异常处理
- 节点OS检查异常处理
- 节点CPU数量检查异常处理
- 节点Python命令检查异常处理
- ASM网格版本检查异常处理
- 节点Ready检查异常处理
- 节点journald检查异常处理
- 节点干扰ContainerdSock检查异常处理
- 内部错误异常处理
- 节点挂载点检查异常处理
- K8s节点污点检查异常处理
- everest插件版本限制检查异常处理
- cce-hpa-controller插件限制检查异常处理
- 增强型CPU管理策略检查异常处理
- 用户节点组件健康检查异常处理
- 控制节点组件健康检查异常处理
- K8s组件内存资源限制检查异常处理
- K8s废弃API检查异常处理
- 节点NetworkManager检查异常处理
- 节点ID文件检查异常处理
- 节点配置一致性检查异常处理
- 节点配置文件检查异常处理
- CoreDNS配置一致性检查异常处理
- 节点Sudo检查异常处理
- 节点关键命令检查异常处理
- 节点sock文件挂载检查异常处理
- HTTPS类型负载均衡证书一致性检查异常处理
- 节点挂载检查异常处理
- 节点paas用户登录权限检查异常处理
- ELB IPv4私网地址检查异常处理
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查异常处理
- 节点系统参数检查异常处理
- 残留packageversion检查异常处理
- 节点命令行检查异常处理
- 节点交换区检查异常处理
- NGINX Ingress控制器插件升级检查异常处理
- 云原生监控插件升级检查异常处理
- Containerd Pod重启风险检查异常处理
- GPU插件关键参数检查异常处理
- GPU/NPU Pod重建风险检查异常处理
- ELB监听器访问控制配置项检查异常处理
- Master节点规格检查异常处理
- Master节点子网配额检查异常处理
- 节点运行时检查异常处理
- 节点池运行时检查异常处理
- 检查节点镜像数量异常处理
- OpenKruise插件兼容性检查异常处理
- Secret落盘加密特性兼容性检查异常处理
- Ubuntu内核与GPU驱动兼容性提醒
- 排水任务检查异常处理
- 节点镜像层数量异常检查
- 检查集群是否满足滚动升级条件
- 轮转证书文件数量检查
- Ingress与ELB配置一致性检查
- 集群网络组件的NetworkPolicy开关检查
- 集群与节点池配置管理检查
- Master节点时区检查
- 节点
- 节点池
- 工作负载
- 调度
-
网络
- 网络概述
- 容器网络
-
服务(Service)
- 服务概述
- 集群内访问(ClusterIP)
- 节点访问(NodePort)
-
负载均衡(LoadBalancer)
- 创建负载均衡类型的服务
- 使用Annotation配置负载均衡类型的服务
- 为负载均衡类型的Service配置HTTP/HTTPS协议
- 为负载均衡类型的Service配置服务器名称指示(SNI)
- 为负载均衡类型的Service配置HTTP/2
- 为负载均衡类型的Service配置HTTP/HTTPS头字段
- 为负载均衡类型的Service配置超时时间
- 为负载均衡类型的Service配置TLS
- 为负载均衡类型的Service配置gzip数据压缩
- 为负载均衡类型的Service配置黑名单/白名单访问策略
- 为负载均衡类型的Service指定多个端口配置健康检查
- 为负载均衡类型的Service配置pass-through能力
- 为负载均衡类型的Service配置获取客户端IP
- 为负载均衡类型的Service配置自定义EIP
- 为负载均衡类型的Service配置区间端口监听
- 通过ELB健康检查设置Pod就绪状态
- 健康检查使用UDP协议的安全组规则说明
- DNAT网关(DNAT)
- Headless Service
-
路由(Ingress)
- 路由概述
- ELB Ingress和Nginx Ingress对比
-
ELB Ingress管理
- 通过控制台创建ELB Ingress
- 通过Kubectl命令行创建ELB Ingress
- 用于配置ELB Ingress的注解(Annotations)
-
ELB Ingress高级配置示例
- 为ELB Ingress配置HTTPS证书
- 更新ELB Ingress的HTTPS证书
- 为ELB Ingress配置服务器名称指示(SNI)
- 为ELB Ingress配置多个转发策略
- 为ELB Ingress配置HTTP/2
- 为ELB Ingress配置HTTPS协议的后端服务
- 为ELB Ingress配置GRPC协议的后端服务
- 为ELB Ingress配置超时时间
- 为ELB Ingress配置慢启动持续时间
- 为ELB Ingress配置灰度发布
- 为ELB Ingress配置黑名单/白名单访问策略
- 为ELB Ingress配置多个监听端口
- 为ELB Ingress配置HTTP/HTTPS头字段
- 为ELB Ingress配置gzip数据压缩
- 为ELB Ingress配置URL重定向
- 为ELB Ingress配置Rewrite重写
- 为ELB Ingress配置HTTP重定向到HTTPS
- 为ELB Ingress配置转发规则优先级
- 为ELB Ingress配置自定义Header转发策略
- 为ELB Ingress配置自定义EIP
- 为ELB Ingress配置跨域访问
- 为ELB Ingress配置高级转发规则
- 为ELB Ingress配置高级转发动作
- ELB Ingress转发策略优先级说明
- 多个Ingress使用同一个ELB对外端口的配置说明
- Nginx Ingress管理
- 自建Nginx Ingress迁移到ELB Ingress
- DNS
- 集群网络配置
- 容器如何访问VPC内部网络
- 从容器访问公网
- 存储
- 弹性伸缩
- 云原生观测
- 云原生成本治理
- 命名空间
- 配置项与密钥
- 插件
- 模板(Helm Chart)
- 权限
- 配置中心
- 存储管理-Flexvolume(已弃用)
-
最佳实践
- 容器应用部署上云CheckList
- 容器化改造
- 迁移
- DevOps
- 容灾
- 安全
- 弹性伸缩
- 监控
- 集群
-
网络
- 集群网络地址段规划实践
- 集群网络模型选择及各模型区别
- CCE集群实现访问跨VPC网络通信
- 使用VPC和云专线实现容器与IDC之间的网络通信
- 自建IDC与CCE集群共享域名解析
- 通过负载均衡配置实现会话保持
- 不同场景下容器内获取客户端源IP
- 通过配置容器内核参数增大监听队列长度
- 为负载均衡类型的Service配置pass-through能力
- 从Pod访问集群外部网络
- 通过模板包部署Nginx Ingress Controller
- CoreDNS配置优化实践
- CCE Turbo配置容器网卡动态预热
- 集群通过企业路由器连接对端VPC
- 在VPC网络集群中访问集群外地址时使用Pod IP作为客户端源IP
- 存储
- 容器
- 权限
- 发布
- 批量计算
- API参考
- SDK参考
-
常见问题
- 高频常见问题
- 计费类
- 集群
-
节点
- 节点创建
-
节点运行
- 集群可用但节点状态为“不可用”如何解决?
- CCE集群中的节点无法远程登录,如何排查解决?
- 如何重置CCE集群中节点的密码?
- 如何收集CCE集群中节点的日志?
- 如何解决yum update升级操作系统导致的容器网络不可用问题?
- Node节点vdb盘受损,通过重置节点仍无法恢复节点?
- CCE集群节点中安装kubelet的端口主要有哪些?
- 如何配置Pod使用GPU节点的加速能力?
- 容器使用SCSI类型云硬盘偶现IO卡住如何解决?
- docker审计日志量过大影响磁盘IO如何解决?
- thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
- CCE节点上监听的端口列表
- GPU节点使用nvidia驱动启动容器排查思路
- CCE节点NTP时间不同步如何解决?
- Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高
- 为什么kubectl top命令查看节点内存使用超过100%?
- CCE节点事件中一直出现“镜像回收失败”告警如何解决?
- 规格配置变更
- 操作系统问题说明
- 节点池
- 工作负载
-
网络管理
-
网络异常问题排查
- 工作负载网络异常时,如何定位排查?
- 集群内部无法使用ELB地址访问负载
- 集群外部访问Ingress异常
- 为什么访问部署的应用时浏览器返回404错误码?
- 为什么容器无法连接互联网?
- VPC的子网无法删除,怎么办?
- 如何修复出现故障的容器网卡?
- 节点无法连接互联网(公网),如何排查定位?
- 如何解决VPC网段与容器网络冲突的问题?
- ELB四层健康检查导致java报错:Connection reset by peer
- Service事件:Have no node to bind,如何排查?
- 为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently?
- 集群节点使用networkpolicy概率性出现panic问题
- 节点远程登录界面(VNC)打印较多source ip_type日志问题
- 使用IE浏览器访问nginx-ingress出现重定向308无法访问
- NGINX Ingress控制器插件升级导致集群内Nginx类型的Ingress路由访问异常
- 负载均衡型Service更新出现错误:Quota exceeded for resources: members_per_pool
- 为ELB Ingress配置了HTTPS证书后访问异常的原因有哪些?
- 网络规划
- 安全加固
- 网络指导
-
网络异常问题排查
-
存储管理
- 如何扩容容器的存储空间?
- CCE支持的存储在持久化和多节点挂载方面的有什么区别?
- 创建CCE节点时可以不添加数据盘吗?
- CCE集群中的EVS存储卷被删除或者过期后是否可以恢复?
- 公网访问CCE部署的服务并上传OBS,为何报错找不到host?
- Pod接口ExtendPathMode: PodUID如何与社区client-go兼容?
- 创建存储卷失败如何解决?
- CCE容器云存储PVC能否感知底层存储故障?
- 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错
- 无法使用kubectl命令删除PV或PVC
- 删除挂载了云存储的Pod时提示target is busy
- 无法自动创建包周期的云硬盘存储卷
- 命名空间
-
模板插件
- 集群安装nginx-ingress插件失败,一直处于创建中?
- NPD插件版本过低导致进程资源残留问题
- 模板格式不正确,无法删除模板实例?
- CCE是否支持nginx-ingress?
- 插件安装失败,提示The release name is already exist如何解决?
- 创建或升级实例失败,提示rendered manifests contain a resource that already exists
- kube-prometheus-stack插件实例调度失败如何解决?
- 上传模板失败如何解决?
- 如何根据集群规格调整插件配额?
- NGINX Ingress控制器插件处于Unknown状态时卸载残留
- NGINX Ingress控制器插件升级后无法使用TLS v1.0和v1.1
- API&kubectl
- 域名DNS
- 镜像仓库
- 权限
- 相关服务
- 视频帮助
-
更多文档
-
用户指南(阿布扎比区域)
- 产品介绍
- 快速入门
- 高危操作及解决方案
-
集群
- 集群概述
- 购买集群
- 连接集群
-
升级集群
- 升级概述
- 升级前须知
- 原地升级
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查
- 升级管控检查
- 插件检查
- Helm模板检查
- Master节点SSH联通性检查
- 节点池检查
- 安全组检查
- ARM节点限制检查
- 残留待迁移节点检查
- K8s废弃资源检查
- 兼容性风险检查
- 节点CCE Agent版本检查
- 节点CPU使用率检查
- CRD检查
- 节点磁盘检查
- 节点DNS检查
- 节点关键目录文件权限检查
- 节点Kubelet检查
- 节点内存检查
- 节点时钟同步服务器检查
- 节点OS检查
- 节点CPU数量检查
- 节点Python命令检查
- ASM网格版本检查
- 节点Ready检查
- 节点journald检查
- 节点干扰ContainerdSock检查
- 内部错误
- 节点挂载点检查
- K8s节点污点检查
- everest插件版本限制检查
- cce-hpa-controller插件限制检查
- 增强型CPU管理策略检查
- 用户节点组件健康检查
- 控制节点组件健康检查
- K8s组件内存资源限制检查
- K8s废弃API检查
- CCE Turbo集群IPv6能力检查
- 节点NetworkManager检查
- 节点ID文件检查
- 节点配置一致性检查
- 节点配置文件检查
- CoreDNS配置一致性检查
- 节点Sudo检查
- 节点关键命令检查
- 节点sock文件挂载检查
- HTTPS类型负载均衡证书一致性检查
- 节点挂载检查
- 节点paas用户登录权限检查
- ELB IPv4私网地址检查
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查
- 节点系统参数检查
- 残留packageversion检查
- 节点命令行检查
- 节点交换区检查
- nginx-ingress插件升级检查
- 管理集群
- 节点
- 节点池
- 工作负载
- 调度
- 网络
- 存储
- 可观测性
- 命名空间
- 配置项与密钥
- 弹性伸缩
- 插件
- 模板(Helm Chart)
- 权限
- 最佳实践
- 常见问题
- API参考(阿布扎比区域)
-
用户指南(巴黎区域)
- 产品介绍
- 产品公告
- Kubernetes基础知识
- 快速入门
- 高危操作及解决方案
-
集群
- 集群概述
- 创建集群
- 连接集群
-
升级集群
- 升级概述
- 升级前须知
- 原地升级
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查
- 升级管控检查
- 插件检查
- Helm模板检查
- Master节点SSH联通性检查
- 节点池检查
- 安全组检查
- ARM节点限制检查
- 残留待迁移节点检查
- K8s废弃资源检查
- 兼容性风险检查
- 节点CCE Agent版本检查
- 节点CPU使用率检查
- CRD检查
- 节点磁盘检查
- 节点DNS检查
- 节点关键目录文件权限检查
- 节点Kubelet检查
- 节点内存检查
- 节点时钟同步服务器检查
- 节点OS检查
- 节点CPU数量检查
- 节点Python命令检查
- ASM网格版本检查
- 节点Ready检查
- 节点journald检查
- 节点干扰ContainerdSock检查
- 内部错误
- 节点挂载点检查
- K8s节点污点检查
- everest插件版本限制检查
- cce-hpa-controller插件限制检查
- 增强型CPU管理策略检查
- 用户节点组件健康检查
- 控制节点组件健康检查
- K8s组件内存资源限制检查
- K8s废弃API检查
- CCE Turbo集群IPv6能力检查
- 节点NetworkManager检查
- 节点ID文件检查
- 节点配置一致性检查
- 节点配置文件检查
- CoreDNS配置一致性检查
- 节点Sudo检查
- 节点关键命令检查
- 节点sock文件挂载检查
- HTTPS类型负载均衡证书一致性检查
- 节点挂载检查
- 节点paas用户登录权限检查
- ELB IPv4私网地址检查
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查
- 节点系统参数检查
- 残留packageversion检查
- 节点命令行检查
- 节点交换区检查
- nginx-ingress插件升级检查
- 管理集群
- 节点
- 节点池
- 工作负载
- 调度
- 网络
- 存储
- 可观测性
- 命名空间
- 配置项与密钥
- 弹性伸缩
- 插件
- 模板(Helm Chart)
- 权限
- 常见问题
- 最佳实践
- 将老版本的数据迁移到最新版本
- API参考 (巴黎区域)
-
用户指南(吉隆坡区域)
- 产品介绍
- 控制台风格升级说明
- 快速入门
- 高危操作一览
-
集群
- 集群概述
- 购买集群
- 连接集群
- 管理集群
-
升级集群
- 升级集群的流程和方法
- 升级前须知
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查异常处理
- 升级管控检查异常处理
- 插件检查异常处理
- Helm模板检查异常处理
- Master节点SSH联通性检查异常处理
- 节点池检查异常处理
- 安全组检查异常处理
- ARM节点限制检查异常处理
- 残留待迁移节点检查异常处理
- K8s废弃资源检查异常处理
- 兼容性风险检查异常处理
- 节点CCE Agent版本检查异常处理
- 节点CPU使用率检查异常处理
- CRD检查异常处理
- 节点磁盘检查异常处理
- 节点DNS检查异常处理
- 节点关键目录文件权限检查异常处理
- 节点Kubelet检查异常处理
- 节点内存检查异常处理
- 节点时钟同步服务器检查异常处理
- 节点OS检查异常处理
- 节点CPU数量检查异常处理
- 节点Python命令检查异常处理
- ASM网格版本检查异常处理
- 节点Ready检查异常处理
- 节点journald检查异常处理
- 节点干扰ContainerdSock检查异常处理
- 内部错误异常处理
- 节点挂载点检查异常处理
- K8s节点污点检查异常处理
- everest插件版本限制检查异常处理
- cce-hpa-controller插件限制检查异常处理
- 增强型CPU管理策略检查异常处理
- 用户节点组件健康检查异常处理
- 控制节点组件健康检查异常处理
- K8s组件内存资源限制检查异常处理
- K8s废弃API检查异常处理
- 节点NetworkManager检查异常处理
- 节点ID文件检查异常处理
- 节点配置一致性检查异常处理
- 节点配置文件检查异常处理
- CoreDNS配置一致性检查异常处理
- 节点Sudo检查异常处理
- 节点关键命令检查异常处理
- 节点sock文件挂载检查异常处理
- HTTPS类型负载均衡证书一致性检查异常处理
- 节点挂载检查异常处理
- 节点paas用户登录权限检查异常处理
- ELB IPv4私网地址检查异常处理
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查异常处理
- 节点系统参数检查异常处理
- 残留packageversion检查异常处理
- 节点命令行检查异常处理
- 节点交换区检查异常处理
- nginx-ingress插件升级检查异常处理
- 云原生监控插件升级检查异常处理
- Containerd Pod重启风险检查异常处理
- GPU插件关键参数检查异常处理
- GPU/NPU Pod重建风险检查异常处理
- ELB监听器访问控制配置项检查异常处理
- Master节点规格检查异常处理
- Master节点子网配额检查异常处理
- 节点运行时检查异常处理
- 节点池运行时检查异常处理
- 检查节点镜像数量异常处理
- 节点
- 节点池
- 工作负载
- 调度
- 网络
- 存储
- 可观测性
- 弹性伸缩
- 命名空间
- 配置项与密钥
- 插件
- 模板(Helm Chart)
- 权限
- 最佳实践
- 常见问题
- API参考(吉隆坡区域)
-
用户指南(安卡拉区域)
- 产品介绍
- 产品公告
- 快速入门
- 高危操作及解决方案
-
集群
- 集群概述
- 创建集群
- 连接集群
-
升级集群
- 升级概述
- 升级前须知
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查
- 升级管控检查
- 插件检查
- Helm模板检查
- Master节点SSH连通性检查异常处理
- 节点池检查
- 安全组检查
- ARM节点限制检查
- 残留待迁移节点检查
- K8s废弃资源检查
- 兼容性风险检查
- 节点CCE Agent版本检查
- 节点CPU使用率检查
- CRD检查
- 节点磁盘检查
- 节点DNS检查
- 节点关键目录文件权限检查
- 节点Kubelet检查
- 节点内存检查
- 节点时钟同步服务器检查
- 节点OS检查
- 节点CPU数量检查异常处理
- 节点Python命令检查
- ASM网格版本检查
- 节点Ready检查
- 节点journald检查
- 节点干扰ContainerdSock检查
- 内部错误异常处理
- 节点挂载点检查
- K8s节点污点检查
- everest插件版本限制检查
- cce-hpa-controller插件限制检查异常处理
- 增强型CPU管理策略检查
- 用户节点组件健康检查异常处理
- 控制节点组件健康检查异常处理
- K8s组件内存资源限制检查
- K8s废弃API检查
- 节点NetworkManager检查
- 节点ID文件检查
- 节点配置一致性检查
- 节点配置文件检查
- CoreDNS配置一致性检查
- 节点Sudo检查
- 节点关键命令检查
- 节点sock文件挂载检查
- HTTPS类型负载均衡证书一致性检查
- 节点挂载检查
- 节点paas用户登录权限检查
- ELB IPv4私网地址检查
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查
- 节点系统参数检查异常处理
- 残留packageversion检查
- 节点命令行检查
- 节点交换区检查异常处理
- nginx-ingress插件升级检查
- 云原生监控插件升级检查异常处理
- Containerd Pod重启风险检查异常处理
- GPU插件关键参数检查异常处理
- GPU/NPU Pod重建风险检查异常处理
- ELB监听器访问控制配置项检查异常处理
- Master节点规格检查异常处理
- Master节点子网配额检查异常处理
- 节点运行时检查异常处理
- 节点池运行时检查异常处理
- 检查节点镜像数量异常处理
- 管理集群
- 节点
- 节点池
- 工作负载
- 调度
- 网络
- 存储
- 可观测性
- 命名空间
- 配置项与密钥
- 弹性伸缩
- 插件
- 模板(Helm Chart)
- 权限
- 常见问题
- 最佳实践
- API参考(安卡拉区域)
-
用户指南(阿布扎比区域)
- 通用参考
链接复制成功!
集群配置管理
操作场景
CCE支持对集群配置参数进行管理,通过该功能您可以对核心组件进行深度配置。
约束与限制
本功能仅支持在v1.15及以上版本的集群中使用,v1.15以下版本不显示该功能。
操作步骤
- 登录CCE控制台,在左侧导航栏中选择“集群管理”。
- 找到目标集群,查看集群的更多操作,并选择“配置管理”。
- 在侧边栏滑出的“配置管理”窗口中,根据业务需求修改Kubernetes的参数值:
表1 集群服务器配置(kube-apiserver) 名称
参数
详情
取值
容器迁移对节点不可用状态的容忍时间
default-not-ready-toleration-seconds
容器迁移对节点不可用状态的容忍时间,默认对所有的容器生效,用户也可以为指定Pod进行差异化容忍配置,此时将以Pod配置的容忍时长为准,详情请参见容忍策略。
如果容忍时间配置过小,在网络抖动等短时故障场景下,容器可能会频繁迁移而影响业务;如果容忍时间配置过大,在节点故障时,容器可能长时间无法迁移,导致业务受损。
默认:300s
容器迁移对节点无法访问状态的容忍时间
default-unreachable-toleration-seconds
容器迁移对节点无法访问状态的容忍时间,默认对所有的容器生效,用户也可以为指定Pod进行差异化容忍配置,此时将以Pod配置的容忍时长为准,详情请参见容忍策略。
如果容忍时间配置过小,在网络抖动等短时故障场景下,容器可能会频繁迁移而影响业务;如果容忍时间配置过大,在节点故障时,容器可能长时间无法迁移,导致业务受损。
默认:300s
修改类API请求最大并发数
max-mutating-requests-inflight
最大mutating并发请求数。 当服务器超过此值时,它会拒绝请求。
0表示无限制。该参数与集群规模相关,不建议修改。
从v1.21版本开始不再支持手动配置,根据集群规格自动配置如下:
- 50和200节点:200
- 1000节点:500
- 2000节点:1000
非修改类API请求最大并发数
max-requests-inflight
最大non-mutating并发请求数。 当服务器超过此值时,它会拒绝请求。
0表示无限制。该参数与集群规模相关,不建议修改。
从v1.21版本开始不再支持手动配置,根据集群规格自动配置如下:
- 50和200节点:400
- 1000节点:1000
- 2000节点:2000
Nodeport类型服务端口范围
service-node-port-range
NodePort端口范围,修改后需前往安全组页面同步修改节点安全组30000-32767的TCP/UDP端口范围,否则除默认端口外的其他端口将无法被外部访问。
端口号小于20106会和CCE组件的健康检查端口冲突,引发集群不可用;端口号高于32767会和net.ipv4.ip_local_port_range范围冲突,影响性能。
默认:30000-32767
取值范围:
min>20105
max<32768
请求超时时间
request-timeout
kube-apiserver组件的默认请求超时时间,请谨慎修改此参数,确保取值合理性,以避免频繁出现接口超时或其他异常。
该参数仅v1.19.16-r30、v1.21.10-r10、v1.23.8-r10、v1.25.3-r10及以上版本集群支持。
默认:1m0s
取值范围:
min>=1s
max<=1h
修改在服务端生效
feature-gates: ServerSideApply
kube-apiserver组件ServerSideApply特性开关,详情请参见服务器端应用(Server-Side Apply)。功能启用时,系统会将资源的字段管理信息存储在metadata.managedFields字段中,以记录历史操作的主体、时间、字段等信息。
该参数仅v1.19.16-r30及以上补丁版本、v1.21.10-r10及以上补丁版本、v1.23.8-r10及以上补丁版本、v1.25.3-r10及以上补丁版本集群支持。v1.27及以上版本集群此特性默认开启,不支持关闭。
默认:开启
开启过载防护
support-overload
集群过载控制开关,开启后将根据控制节点的资源压力,动态调整请求并发量,维护控制节点和集群的可靠性。
该参数仅v1.23及以上版本集群支持。
- false:不启用过载控制
- true:启用过载控制
节点限制插件
enable-admission-plugin-node-restriction
节点限制插件限制了节点的kubelet只能操作当前节点的对象,增强了在高安全要求或多租户场景下的隔离性。
默认:开启
Pod节点选择器插件
enable-admission-plugin-pod-node-selector
Pod节点选择器插件允许集群管理员通过命名空间注释设置默认节点选择器,帮助约束Pod可以运行的节点,并简化配置。
默认:开启
Pod容忍度限制插件
enable-admission-plugin-pod-toleration-restriction
Pod容忍度限制插件允许通过命名空间设置Pod的容忍度的默认值和限制,为集群管理者提供了对Pod调度的精细控制,以保护关键资源。
默认:关闭
API受众
api-audiences
为ServiceAccount令牌定义其受众。Kubernetes 用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。
配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。
说明:
不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、v1.28.6-r0及以上版本的集群支持该参数。
默认值:"https://kubernetes.default.svc.cluster.local"
支持配置多个值,用英文逗号隔开。
服务账户令牌发行者
service-account-issuer
指定发行服务账户令牌的实体标识符。这是在服务账户令牌的负载(Payload)中的 'iss' 字段所标识的值。
配置建议:请确保所配置的发行者(Issuer)URL在集群内部可被访问,并且可被集群内部的认证系统所信任。
说明:
若设置了一个不可信或无法访问的发行者 URL,可能会导致基于服务账户的认证流程失败。
v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、v1.28.6-r0及以上版本的集群支持该参数。
默认值:"https://kubernetes.default.svc.cluster.local"
支持配置多个值,用英文逗号隔开。
表2 调度器配置 名称
参数
详情
取值
调度器访问kube-apiserver的QPS
kube-api-qps
与kube-apiserver通信的QPS
- 集群规格为1000节点以下时,默认值100
- 集群规格为1000节点及以上时,默认值200
调度器访问kube-apiserver的突发流量上限
kube-api-burst
与kube-apiserver通信的burst
- 集群规格为1000节点以下时,默认值100
- 集群规格为1000节点及以上时,默认值200
开启GPU共享
enable-gpu-share
是否开启GPU共享,该参数仅v1.23.7-r10、v1.25.3-r0及以上版本集群支持。
- 关闭GPU共享时,需保证集群中的Pod没有使用共享GPU能力(即Pod不存在cce.io/gpu-decision的annotation)。
- 开启GPU共享时,需保证集群中已使用GPU资源的Pod均存在cce.io/gpu-decision的annotation。
默认:开启
表3 集群控制器配置(kube-controller-manager) 名称
参数
详情
取值
Deployment
concurrent-deployment-syncs
Deployment的并发处理数
默认:5
Endpoint
concurrent-endpoint-syncs
Endpoint的并发处理数
默认:5
GC回收
concurrent-gc-syncs
Garbage Collector的并发数
默认:20
Job
concurrent-job-syncs
允许同时同步的作业对象的数量。
默认:5
CronJob
concurrent-cron-job-syncs
允许同时同步的定时任务对象的数量。
默认:5
Namespace
concurrent-namespace-syncs
Namespace的并发处理数
默认:10
ReplicaSet
concurrent-replicaset-syncs
ReplicaSet的并发处理数
默认:5
ResourceQuota
concurrent-resource-quota-syncs
Resource Quota的并发处理数
默认:5
Servicepace
concurrent-service-syncs
Service的并发处理数
默认:10
ServiceAccountToken
concurrent-serviceaccount-token-syncs
ServiceAccount Token的并发处理数
默认:5
TTLAfterFinished
concurrent-ttl-after-finished-syncs
ttl-after-finished的并发处理数
默认:5
RC
concurrent-rc-syncs
RC的并发处理数
说明:
该参数仅在v1.21至v1.23版本集群中使用。v1.25版本后,该参数弃用(正式弃用版本为v1.25.3-r0)。
默认:5
HPA并发处理数
concurrent-horizontal-pod-autoscaler-syncs
HPA弹性伸缩并发处理数。
v1.27以下版本集群中默认为1,v1.27及以上版本以下集群中默认为5
取值范围为1-50
Pod水平伸缩同步的周期
horizontal-pod-autoscaler-sync-period
集群弹性计算的周期
默认:15s
Pod水平伸缩容忍度
horizontal-pod-autoscaler-tolerance
该配置影响控制器对伸缩策略相关指标反映的灵敏程度,当配置为0时,指标达到策略阈值时立即触发弹性。
配置建议:如业务资源占用随时间的“突刺”特征明显,建议保留一定的容忍度值,避免因业务短时资源占用飚高导致预期之外的弹性行为。
默认:0.1
HPA CPU初始化期间
horizontal-pod-autoscaler-cpu-initialization-period
这一时段定义了纳入HPA计算的CPU使用数据仅来源于已经达到就绪状态并完成了最近一次指标采集的Pods。它的目的是在Pod启动初期过滤掉不稳定的CPU使用数据,进而防止基于瞬时峰值做出错误的扩缩容决策。
配置建议:如果您观察到Pods在启动阶段的CPU使用率波动导致HPA作出错误的扩展决策,增大此值可以提供一个CPU使用率稳定化的缓冲期。
说明:
请合理设置该参数,设置值过低可能导致基于CPU峰值做出过度反应的扩容;而设置得过高则可能在实际需要扩容时造成延迟反应。
v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、v1.28.6-r0、v1.29.2-r0及以上版本的集群支持该参数。
默认:5分钟
HPA 初始就绪状态延迟
horizontal-pod-autoscaler-initial-readiness-delay
在CPU初始化期之后,此时间段允许HPA以一个较宽松的标准筛选CPU度量数据。也就是说,这段时间内,即使Pods的就绪状态有所变化,HPA也会考虑它们的CPU使用数据进行扩缩容。这有助于在Pod状态频繁变化时,确保CPU使用数据被持续追踪。
配置建议:如果Pods在启动后的就绪状态发生波动,并且您需要避免此波动导致HPA的误判,适当增加此值可以使HPA得到更全面的CPU使用数据。
说明:
请合理设置该参数,值设置过低可能会在Pod刚进入就绪状态时,因CPU数据波动导致不恰当的扩容行为;而设置过高则可能导致在需要快速反应时HPA无法立即做出决策。
v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、v1.28.6-r0、v1.29.2-r0及以上版本的集群支持该参数。
默认:30s
控制器访问kube-apiserver的QPS
kube-api-qps
与kube-apiserver通信的qps
- 集群规格为1000节点以下时,默认值100
- 集群规格为1000节点及以上时,默认值200
控制器访问kube-apiserver的突发流量上限
kube-api-burst
与kube-apiserver通信的burst
- 集群规格为1000节点以下时,默认值100
- 集群规格为1000节点及以上时,默认值200
终止状态pod触发回收的数量阈值
terminated-pod-gc-threshold
集群中可保留的终止状态Pod数量,终止状态Pod超出该数量时将会被删除。
说明:
该参数设置为0时,表示保留所有终止状态的Pod。
默认:1000
取值范围为10-12500
集群版本为v1.21.11-r40、v1.23.8-r0、v1.25.6-r0、v1.27.3-r0及以上时,取值范围调整为0-100000
可用区亚健康阈值
unhealthy-zone-threshold
当可用区故障节点规模达到指定比例时被认定为不健康,针对不健康的区域,故障节点业务的迁移频率会降级,避免规模故障场景下大规模迁移操作产生更坏的影响。
说明:
比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险。
默认:0.55
取值范围为0-1
节点迁移速率
node-eviction-rate
当某区域健康时,在节点故障的情况下每秒删除 Pods的节点数。该值默认设置为0.1,代表每10 秒钟内至多从一个节点驱逐Pods。
说明:
迁移速率设置过大可能引入集群过载风险,同时每批迁移重调度的pod过多,大量pod无法及时调度,影响整体故障恢复时间。
默认:0.1
次级节点迁移速率
secondary-node-eviction-rate
当某区域不健康时,在节点故障的情况下每秒删除Pods的节点数。该值默认设置为0.01,代表每100秒钟内至多从一个节点驱逐Pods。
说明:
区域亚健康场景迁移速率设置过大无实际意义,且可能引入集群过载风险。
默认:0.01
配合node-eviction-rate设置,一般建议设置为node-eviction-rate的十分之一。
大规模集群大小阈值
large-cluster-size-threshold
集群内节点数量大于此参数时,集群被判断为大规模集群。
说明:
被视为大型集群时,kube-controller-manager 会进行特定配置调整。这些配置用来优化大规模集群性能。因此阈值如果过低,规模小的集群用上的大集群的配置,反而降低性能。
默认:50
在拥有大量节点的集群中,适当增加此阈值可以帮助提高控制器的性能和响应速度。对于规模较小的集群,保持默认值即可。在调整此参数时,建议先在测试环境中验证其对性能的影响,然后再在生产环境中应用。
表4 网络组件配置(仅VPC网络模型的集群支持) 名称
参数
详情
取值
保留原有Pod IP的非伪装网段
nonMasqueradeCIDRs
在VPC网络集群中,集群内的容器如果想要访问集群外,则需要将源容器IP进行SNAT,转换为节点IP(伪装成节点与外部通信)。配置后,节点默认不会将该网段IP进行SNAT,即不进行这种伪装。v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0及以上版本支持该配置。
集群中的节点默认不会将目的IP为10.0.0.0/8,172.16.0.0/12,192.168.0.0/16 三个网段的报文进行SNAT,因为这三个网段CCE默认为私有网段,可以借由上层VPC直接将报文送达(即将这三个网段视为集群内的网络,默认三层可达)。
默认:10.0.0.0/8,172.16.0.0/12,192.168.0.0/16
说明:
如果需要保证节点能正常访问跨节点的Pod,必须添加节点的子网网段。
同理,如果同VPC下的其他ECS节点需要能正常访问Pod IP,必须添加ECS所在子网网段。
表5 扩展控制器配置(仅v1.21及以上版本集群支持) 名称
参数
详情
取值
启用资源配额管理
enable-resource-quota
创建Namespace时是否自动创建ResourceQuota对象。通过配额管理功能,用户可以对命名空间或相关维度下的各类负载数量以及资源上限进行控制。
- 关闭:不自动创建ResourceQuota对象。
- 开启:自动创建ResourceQuota对象。ResourceQuota的默认取值请参见设置资源配额及限制。
说明:
在高并发场景下(如批量创建Pod),配额管理机制可能导致部分请求因冲突而失败,除非必要不建议启用该功能;如启用,请确保请求客户端具备重试机制。
默认:关闭
- 单击“确定”,完成配置操作。