- 最新动态
- 功能总览
-
服务公告
- 最新公告
- 产品变更公告
- 集群版本公告
-
漏洞公告
- 漏洞修复策略
- Kubernetes安全漏洞公告(CVE-2024-10220)
- Kubernetes安全漏洞公告(CVE-2024-9486,CVE-2024-9594)
- NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132)
- Linux CUPS服务RCE 漏洞公告(CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177)
- NGINX Ingress控制器验证绕过漏洞公告(CVE-2024-7646)
- Docker Engine授权插件AuthZ权限绕过漏洞公告(CVE-2024-41110)
- Linux内核权限提升漏洞公告(CVE-2024-1086)
- OpenSSH远程代码执行漏洞公告(CVE-2024-6387)
- Fluent Bit内存崩溃漏洞公告(CVE-2024-4323)
- runc systemd属性注入漏洞公告(CVE-2024-3154)
- runc漏洞(CVE-2024-21626)对CCE服务的影响说明
- Kubernetes安全漏洞公告(CVE-2022-3172)
- Linux Kernel openvswitch 模块权限提升漏洞预警(CVE-2022-2639)
- nginx-ingress插件安全漏洞预警公告(CVE-2021-25748)
- nginx-ingress插件安全漏洞预警公告(CVE-2021-25745,CVE-2021-25746)
- containerd容器进程权限提升漏洞公告(CVE-2022-24769)
- CRI-O容器运行时引擎任意代码执行漏洞(CVE-2022-0811)
- linux内核导致的容器逃逸漏洞公告(CVE-2022-0492)
- containerd镜像Volume非安全处理漏洞公告(CVE-2022-23648)
- Linux内核整数溢出漏洞(CVE-2022-0185)
- Linux Polkit 权限提升漏洞预警(CVE-2021-4034)
- Kubernetes subpath符号链接交换安全漏洞(CVE-2021- 25741)
- runc符号链接挂载与容器逃逸漏洞预警公告(CVE-2021-30465)
- Docker资源管理错误漏洞公告(CVE-2021-21285)
- NVIDIA GPU驱动漏洞公告(CVE-2021-1056)
- Sudo缓冲区错误漏洞公告(CVE-2021-3156)
- Kubernetes安全漏洞公告(CVE-2020-8554)
- Apache containerd安全漏洞公告(CVE-2020-15257)
- Docker Engine输入验证错误漏洞公告(CVE-2020-13401)
- Kubernetes kube-apiserver输入验证错误漏洞公告(CVE-2020-8559)
- Kubernetes kubelet资源管理错误漏洞公告(CVE-2020-8557)
- Kubernetes kubelet和kube-proxy授权问题漏洞公告(CVE-2020-8558)
- 修复Kubernetes HTTP/2漏洞公告
- 修复Linux内核SACK漏洞公告
- 修复Docker操作系统命令注入漏洞公告(CVE-2019-5736)
- 全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105)
- 修复Kubernetes Dashboard安全漏洞公告(CVE-2018-18264)
-
产品发布记录
-
集群版本发布记录
- Kubernetes版本策略
-
Kubernetes版本发布记录
- Kubernetes 1.31版本说明
- Kubernetes 1.30版本说明
- Kubernetes 1.29版本说明
- Kubernetes 1.28版本说明
- Kubernetes 1.27版本说明
- Kubernetes 1.25版本说明
- Kubernetes 1.23版本说明
- (停止维护)Kubernetes 1.21版本说明
- (停止维护)Kubernetes 1.19版本说明
- (停止维护)Kubernetes 1.17版本说明
- (停止维护)Kubernetes 1.15版本说明
- (停止维护)Kubernetes 1.13版本说明
- (停止维护)Kubernetes 1.11版本说明
- (停止维护)Kubernetes 1.9及之前版本说明
- 补丁版本发布记录
- 操作系统镜像发布记录
-
插件版本发布记录
- CoreDNS域名解析插件版本发布记录
- CCE容器存储插件(Everest)版本发布记录
- CCE节点故障检测插件版本发布记录
- Kubernetes Dashboard插件版本发布记录
- CCE集群弹性引擎版本发布记录
- NGINX Ingress控制器插件版本发布记录
- Kubernetes Metrics Server插件版本发布记录
- CCE容器弹性引擎插件版本发布记录
- CCE突发弹性引擎(对接CCI)插件版本发布记录
- CCE AI套件(NVIDIA GPU)版本发布记录
- CCE AI套件(Ascend NPU)版本发布记录
- Volcano调度器版本发布记录
- CCE密钥管理(对接 DEW)插件版本发布记录
- CCE容器网络扩展指标插件版本发布记录
- 节点本地域名解析加速插件版本发布记录
- 云原生监控插件版本发布记录
- 云原生日志采集插件版本发布记录
- 容器镜像签名验证插件版本发布记录
- Grafana插件版本发布记录
- OpenKruise插件版本发布记录
- Gatekeeper插件版本发布记录
- 容器垂直弹性引擎版本发布记录
- CCE集群备份恢复插件版本发布记录(停止维护)
- Kubernetes Web终端版本发布记录(停止维护)
- Prometheus插件版本发布记录(停止维护)
-
集群版本发布记录
- 产品介绍
- 计费说明
- Kubernetes基础知识
- 快速入门
-
用户指南
- 高危操作一览
-
集群
- 集群概述
-
集群版本发布说明
-
Kubernetes版本发布记录
- Kubernetes 1.31版本说明
- Kubernetes 1.30版本说明
- Kubernetes 1.29版本说明
- Kubernetes 1.28版本说明
- Kubernetes 1.27版本说明
- Kubernetes 1.25版本说明
- Kubernetes 1.23版本说明
- (停止维护)Kubernetes 1.21版本说明
- (停止维护)Kubernetes 1.19版本说明
- (停止维护)Kubernetes 1.17版本说明
- (停止维护)Kubernetes 1.15版本说明
- (停止维护)Kubernetes 1.13版本说明
- (停止维护)Kubernetes 1.11版本说明
- (停止维护)Kubernetes 1.9及之前版本说明
- 补丁版本发布记录
-
Kubernetes版本发布记录
- 购买集群
- 连接集群
- 管理集群
-
升级集群
- 升级集群的流程和方法
- 升级前须知
- 升级后验证
- 集群跨版本业务迁移
-
升级前检查异常问题排查
- 升级前检查项
- 节点限制检查异常处理
- 升级管控检查异常处理
- 插件检查异常处理
- Helm模板检查异常处理
- Master节点SSH连通性检查异常处理
- 节点池检查异常处理
- 安全组检查异常处理
- 残留待迁移节点检查异常处理
- K8s废弃资源检查异常处理
- 兼容性风险检查异常处理
- 节点上CCE Agent版本检查异常处理
- 节点CPU使用率检查异常处理
- CRD检查异常处理
- 节点磁盘检查异常处理
- 节点DNS检查异常处理
- 节点关键目录文件权限检查异常处理
- 节点Kubelet检查异常处理
- 节点内存检查异常处理
- 节点时钟同步服务器检查异常处理
- 节点OS检查异常处理
- 节点CPU数量检查异常处理
- 节点Python命令检查异常处理
- ASM网格版本检查异常处理
- 节点Ready检查异常处理
- 节点journald检查异常处理
- 节点干扰ContainerdSock检查异常处理
- 内部错误异常处理
- 节点挂载点检查异常处理
- K8s节点污点检查异常处理
- everest插件版本限制检查异常处理
- cce-hpa-controller插件限制检查异常处理
- 增强型CPU管理策略检查异常处理
- 用户节点组件健康检查异常处理
- 控制节点组件健康检查异常处理
- K8s组件内存资源限制检查异常处理
- K8s废弃API检查异常处理
- 节点NetworkManager检查异常处理
- 节点ID文件检查异常处理
- 节点配置一致性检查异常处理
- 节点配置文件检查异常处理
- CoreDNS配置一致性检查异常处理
- 节点Sudo检查异常处理
- 节点关键命令检查异常处理
- 节点sock文件挂载检查异常处理
- HTTPS类型负载均衡证书一致性检查异常处理
- 节点挂载检查异常处理
- 节点paas用户登录权限检查异常处理
- ELB IPv4私网地址检查异常处理
- 检查历史升级记录是否满足升级条件
- 检查集群管理平面网段是否与主干配置一致
- GPU插件检查异常处理
- 节点系统参数检查异常处理
- 残留packageversion检查异常处理
- 节点命令行检查异常处理
- 节点交换区检查异常处理
- NGINX Ingress控制器插件升级检查异常处理
- 云原生监控插件升级检查异常处理
- Containerd Pod重启风险检查异常处理
- GPU插件关键参数检查异常处理
- GPU/NPU Pod重建风险检查异常处理
- ELB监听器访问控制配置项检查异常处理
- Master节点规格检查异常处理
- Master节点子网配额检查异常处理
- 节点运行时检查异常处理
- 节点池运行时检查异常处理
- 检查节点镜像数量异常处理
- OpenKruise插件兼容性检查异常处理
- Secret落盘加密特性兼容性检查异常处理
- Ubuntu内核与GPU驱动兼容性提醒
- 排水任务检查异常处理
- 节点镜像层数量异常检查
- 检查集群是否满足滚动升级条件
- 轮转证书文件数量检查
- Ingress与ELB配置一致性检查
- 集群网络组件的NetworkPolicy开关检查
- 集群与节点池配置管理检查
- Master节点时区检查
- 集群管理最佳实践
- 节点
- 节点池
- 工作负载
- 调度
-
网络
- 网络概述
- 容器网络
-
服务(Service)
- 服务概述
- 集群内访问(ClusterIP)
- 节点访问(NodePort)
-
负载均衡(LoadBalancer)
- 创建负载均衡类型的服务
- 使用Annotation配置负载均衡类型的服务
- 为负载均衡类型的Service配置HTTP/HTTPS协议
- 为负载均衡类型的Service配置服务器名称指示(SNI)
- 为负载均衡类型的Service配置跨集群的后端
- 为负载均衡类型的Service配置HTTP/2
- 为负载均衡类型的Service配置HTTP/HTTPS头字段
- 为负载均衡类型的Service配置超时时间
- 为负载均衡类型的Service配置TLS
- 为负载均衡类型的Service配置gzip数据压缩
- 为负载均衡类型的Service配置黑名单/白名单访问策略
- 为负载均衡类型的Service指定多个端口配置健康检查
- 为负载均衡类型的Service配置pass-through能力
- 为负载均衡类型的Service配置获取客户端IP
- 为负载均衡类型的Service配置自定义EIP
- 为负载均衡类型的Service配置区间端口监听
- 通过ELB健康检查设置Pod就绪状态
- 健康检查使用UDP协议的安全组规则说明
- DNAT网关(DNAT)
- Headless Service
-
路由(Ingress)
- 路由概述
- ELB Ingress和Nginx Ingress对比
-
ELB Ingress管理
- 通过控制台创建ELB Ingress
- 通过Kubectl命令行创建ELB Ingress
- 用于配置ELB Ingress的注解(Annotations)
-
ELB Ingress高级配置示例
- 为ELB Ingress配置HTTPS证书
- 更新ELB Ingress的HTTPS证书
- 为ELB Ingress配置服务器名称指示(SNI)
- 为ELB Ingress配置多个转发策略
- 为ELB Ingress配置HTTP/2
- 为ELB Ingress配置HTTPS协议的后端服务
- 为ELB Ingress配置GRPC协议的后端服务
- 为ELB Ingress配置超时时间
- 为ELB Ingress配置慢启动持续时间
- 为ELB Ingress配置灰度发布
- 为ELB Ingress配置黑名单/白名单访问策略
- 为ELB Ingress配置多个监听端口
- 为ELB Ingress配置HTTP/HTTPS头字段
- 为ELB Ingress配置gzip数据压缩
- 为ELB Ingress配置URL重定向
- 为ELB Ingress配置Rewrite重写
- 为ELB Ingress配置HTTP重定向到HTTPS
- 为ELB Ingress配置转发规则优先级
- 为ELB Ingress配置自定义Header转发策略
- 为ELB Ingress配置自定义EIP
- 为ELB Ingress配置跨域访问
- 为ELB Ingress配置高级转发规则
- 为ELB Ingress配置高级转发动作
- ELB Ingress转发策略优先级说明
- 多个Ingress使用同一个ELB对外端口的配置说明
- Nginx Ingress管理
- 自建Nginx Ingress迁移到ELB Ingress
- DNS
- 集群网络配置
- 容器如何访问VPC内部网络
- 从容器访问公网
- 网络管理最佳实践
- 存储
- 弹性伸缩
- 云原生观测
- 云原生成本治理
- 命名空间
- 配置项与密钥
- 插件
- 模板(Helm Chart)
- 权限
- 配置中心
- 存储管理-Flexvolume(已弃用)
-
最佳实践
- CCE最佳实践汇总
- 容器应用部署上云CheckList
- 容器化改造
- 集群备份恢复
- 迁移
- DevOps
- 容灾
- 安全
- 弹性伸缩
- 监控
- 集群
-
网络
- 集群网络地址段规划实践
- 集群网络模型选择及各模型区别
- CCE集群实现访问跨VPC网络通信
- 使用VPC和云专线实现容器与IDC之间的网络通信
- 自建IDC与CCE集群共享域名解析
- 通过负载均衡配置实现会话保持
- 不同场景下容器内获取客户端源IP
- 通过配置容器内核参数增大监听队列长度
- 为负载均衡类型的Service配置pass-through能力
- 从Pod访问集群外部网络
- 通过模板包部署Nginx Ingress Controller
- CoreDNS配置优化实践
- CCE Turbo配置容器网卡动态预热
- 集群通过企业路由器连接对端VPC
- 在VPC网络集群中访问集群外地址时使用Pod IP作为客户端源IP
- 存储
- 容器
- 权限
- 发布
- 批量计算
- API参考
- SDK参考
- 场景代码示例
-
常见问题
- 高频常见问题
- 计费类
- 集群
-
节点
- 节点异常问题排查
- 节点创建
-
节点运行
- 集群可用但节点状态为“不可用”如何解决?
- CCE集群中的节点无法远程登录,如何排查解决?
- 如何重置CCE集群中节点的密码?
- 如何收集CCE集群中节点的日志?
- 如何解决yum update升级操作系统导致的容器网络不可用问题?
- Node节点vdb盘受损,通过重置节点仍无法恢复节点?
- CCE集群节点中安装kubelet的端口主要有哪些?
- 如何配置Pod使用GPU节点的加速能力?
- 容器使用SCSI类型云硬盘偶现IO卡住如何解决?
- docker审计日志量过大影响磁盘IO如何解决?
- thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
- CCE节点上监听的端口列表
- GPU节点使用nvidia驱动启动容器排查思路
- CCE节点NTP时间不同步如何解决?
- Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高
- 为什么kubectl top命令查看节点内存使用超过100%?
- CCE节点事件中一直出现“镜像回收失败”告警如何解决?
- 规格配置变更
- 操作系统问题说明
- 节点池
- 工作负载
-
网络管理
-
网络异常问题排查
- 工作负载网络异常时,如何定位排查?
- 负载均衡类型Service异常问题排查
- 集群内部无法使用ELB地址访问负载
- 集群外部访问Ingress异常
- CCE集群中域名解析失败
- 为什么访问部署的应用时浏览器返回404错误码?
- 为什么容器无法连接互联网?
- VPC的子网无法删除,怎么办?
- 如何修复出现故障的容器网卡?
- 节点无法连接互联网(公网),如何排查定位?
- 如何解决VPC网段与容器网络冲突的问题?
- ELB四层健康检查导致java报错:Connection reset by peer
- Service事件:Have no node to bind,如何排查?
- 为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently?
- 集群节点使用networkpolicy概率性出现panic问题
- 节点远程登录界面(VNC)打印较多source ip_type日志问题
- 使用IE浏览器访问nginx-ingress出现重定向308无法访问
- NGINX Ingress控制器插件升级导致集群内Nginx类型的Ingress路由访问异常
- 负载均衡型Service更新出现错误:Quota exceeded for resources: members_per_pool
- ELB Ingress出现告警:Invalid input for rules
- 为ELB Ingress配置了HTTPS证书后访问异常的原因有哪些?
- 网络规划
- 安全加固
- 网络指导
-
网络异常问题排查
-
存储管理
- 如何扩容容器的存储空间?
- CCE支持的存储在持久化和多节点挂载方面的有什么区别?
- 创建CCE节点时可以不添加数据盘吗?
- CCE集群中的EVS存储卷被删除或者过期后是否可以恢复?
- 公网访问CCE部署的服务并上传OBS,为何报错找不到host?
- Pod接口ExtendPathMode: PodUID如何与社区client-go兼容?
- 创建存储卷失败如何解决?
- CCE容器云存储PVC能否感知底层存储故障?
- 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错
- 无法使用kubectl命令删除PV或PVC
- 删除挂载了云存储的Pod时提示target is busy
- 无法自动创建包周期的云硬盘存储卷
- 误卸载存储池的磁盘后如何恢复
- 删除动态创建的PVC之后,底层存储依旧残留
- 命名空间
-
模板插件
- 插件异常问题排查
- 集群安装nginx-ingress插件失败,一直处于创建中?
- NPD插件版本过低导致进程资源残留问题
- 模板格式不正确,无法删除模板实例?
- CCE是否支持nginx-ingress?
- 插件安装失败,提示The release name is already exist如何解决?
- 创建或升级实例失败,提示rendered manifests contain a resource that already exists
- kube-prometheus-stack插件实例调度失败如何解决?
- 上传模板失败如何解决?
- 如何根据集群规格调整插件配额?
- NGINX Ingress控制器插件处于Unknown状态时卸载残留
- NGINX Ingress控制器插件升级后无法使用TLS v1.0和v1.1
- API&kubectl
- 域名DNS
- 镜像仓库
- 权限
- 相关服务
- 配置参考
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
CCE集群备份恢复(停止维护)
插件简介
CCE集群备份恢复插件(原名e-backup)提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。
使用约束
- 备份/恢复过程中,用户要保证集群处于稳态,不要触发增删改等变更行为,以免出现备份/恢复失败或不完整;
- 若集群发生变更,建议等15分钟后,集群处于稳态,再做备份操作;
- 使用 云盘快照备份 时,仅提供EVS类型的PV卷做快照备份,并遵循快照的约束(如:不支持跨AZ恢复等),计费参考“云盘快照”;
- 使用 restic备份 时,提供对EVS、SFS、SFS Turbo、OBS类型的PV卷做数据备份,并上传到OBS备份仓库中;
- 开源的restic会对备份时间点的数据做自有快照,并上传数据,不影响用户后续数据的读写,但restic不做文件内容的校验和业务一致性校验,其特性遵循restic约束;
- restic占用内存与初次备份的PV卷数据大小有关,若数据大于500G,建议采用云存储提供的迁移方式进行,若使用本插件可以参考操作指南修改restic容器的资源配额;
- 备份过程中有状态应用业务数据一致性,需要用户可通过Hooks来保证业务数据一致性,比如:同步内存数据到文件中等;
- 在恢复过程中,支持通过配置调整来适应迁移前后的环境差异:
- 应用可以从原命名空间恢复到指定的另一个命名空间中,但需要用户确认恢复应用间没有通过固定的service来访问该应用;
- 可以将应用的镜像地址(repo)换成另一个镜像地址,镜像名字和版本号在恢复过程中是保持不变的;
- 可以将应用使用的StorageClass的名字更换成新的StorageClass,注意需要使用同类型替换,比如:块存储 -> 块存储。
- 遵循开源velero和restic插件的约束,比如:在恢复过程中Service会清除clusterIP的IP地址,这样才能更适应源、目标K8s集群的差异。
安装插件
- 登录CCE控制台,单击左侧导航栏的“插件市场”,找到e-backup插件,单击e-backup插件下的“安装”。
- 在安装插件页面,选择要安装的集群,配置参数,然后单击“安装”。
当前支持配置如下参数。
volumeWorkerNum:备份volume的工作并发数量,默认为3。
准备密钥
- 获取访问密钥。
登录CCE控制台,在右上角用户名下选择“我的凭证”,在左侧选择“访问密钥”,单击“新增访问密钥”。
- 创建密钥文件,并通过 base64 格式化成字符串。
# 创建密钥文件 $ vi credential-for-huawei-obs HUAWEI_CLOUD_ACCESS_KEY_ID=your_access_key HUAWEI_CLOUD_SECRET_ACCESS_KEY=your_secret_key # 使用 base64 格式化字符串 $ base64 -w 0 credential-for-huawei-obs XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXHWOBS
- 创建Secret。
按如下YAML文件创建Secret。
apiVersion: v1 kind: Secret metadata: labels: secret.everest.io/backup: 'true' #标识该secret用于E-Backup访问备份存储库 name: secret-secure-opaque namespace: velero #必须和E-Backup置于同一namespace,取值必须为velero type: cfe/secure-opaque data: # credential文件经过base64编码后得到的字符串 cloud: XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXHWOBS
- secret 所在 namespace 必须和 E-Backup 实例所在namespace一致,即 velero。
- secret.data 中存储的是访问对象存储服务的密钥,其中 key 必须为 cloud,而 value 为2中通过 base64 编码得到的字符串。一般通过 base64 编码后显示的字符串会有换行符,请在写入 secret.data 中时手动去除这些换行符。
- secret 需要打上标签“secret.everest.io/backup: true”,标识该 secret 是用于备份存储库的管理。
创建存储库
这里的备份存储库是指 E-Backup 用于获取和检测后端对象存储服务相关信息的 K8s 资源对象。
apiVersion: velero.io/v1 kind: BackupStorageLocation metadata: name: backup-location-001 namespace: velero #必须和E-Backup处于同一namespace spec: config: endpoint: obs.{regionname}.myhuaweicloud.com # OBS的endpoint credential: name: secret-secure-opaque # 此前创建的secret的名字 key: cloud # secret.data中的key值 objectStorage: bucket: tools-cce # OBS中的桶名 prefix: for-backup # 子路径名 provider: huawei # 使用OBS服务
- 除了 prefix 字段为选填外,其他字段必填。provider 为固定值 huawei。
- endpoint 可以到地区和终端节点获取,都需要保证集群内各节点可访问该地址。当endpoint 不带协议头时(http或者https),默认启用 https。
- credential中的 name 和 key 需要配置正确,否则 E-Backup 无法访问后端存储库。
创建完成后等待30s用于备份存储库的检查和同步等工作,随后查看该备份存储库状态是否可用,PHASE 为 Available 表示可用,其他表示不可用。
$ kubectl get backupstoragelocations.velero.io backup-location-001 -n velero NAME PHASE LAST VALIDATED AGE DEFAULT backup-location-001 Available 23s 23m
此处如果PHASE 长时间没有Available,可通过查看E-Backup的日志定位问题。E-Backup安装后会在velero命名空间创建一个名为velero的工作负载,查看velero的日志即可。
立即备份
立即备份操作后会立刻执行备份过程,备份完成后停止,适用于克隆/迁移。
编辑备份模板,如下所示,随后通过 kubectl create 命令创建。
apiVersion: velero.io/v1 kind: Backup metadata: name: backup-01 namespace: velero spec: includedNamespaces: - nginx - mysql labelSelector: matchExpressions: - key: direction operator: In values: - back - front matchLabels: app: nginx backup: velero runMode: Normal appData: volumes: Restic hooks: resources: - name: hook01 includedNamespaces: - nginx labelSelector: {} pre: - exec: command: - /bin/sh - -c - echo hello > hello.txt && echo goodbye > goodbye.txt container: container-0 onError: Fail timeout: 30s post: - exec: command: - /bin/sh - -c - echo hello > hello.txt && echo goodbye > goodbye.txt container: container-0 onError: Fail timeout: 30s storageLocation: backup-location-001 ttl: 720h0m0s
参数说明如下。
- 备份参数
- storageLocation:指定了使用的备份存储库的名称,备份后的内容将会放置到对应的后端对象存储中,为必填字段。
- ttl:指定了备份的内容将会在存储库中存放的时间,超期后会被删除,必须按照指定格式进行配置:h,m,s 分别表示“时,分,秒”。例如24h 表示一天,3h4m5s 表示 三小时四分钟五秒,默认为30天(720h0m0s)。
- 资源过滤相关:以下字段为过滤条件,都配置时取交集,相当于对集群中的所有资源进行筛选。
- includedNamespaces/excludedNamespaces:指定对某些命名空间下的资源备份/不备份,互斥选项,选择一项配置即可,可选择多个namespace,默认表示所有namespace。
- labelSelector:指定对具有特定标签的资源进行备份,参照 K8s 的标准用法,按需选择。
- runMode:选择备份的运行方式,必填,Normal(备份应用和数据)/AppOnly(仅备份应用)/DataOnly(仅备份数据)/DryRun(用于验证,不备份)。
- 业务数据备份相关:当前支持两种方式对业务产生的实际数据进行备份,一种是 everest 快照,只适用于使用 evs 类型的持久卷(pvc)作为数据卷;另一种是 restic 备份,可备份除去 hostpath 类型以外的所有数据卷。两种方式支持混用。
- appData:备份持久卷数据的方式,Restic/Snapshot,Snapshot默认不启用。Snapshot方式是为支持快照能力的存储,且集群中部署了csi快照插件时才能生效。
- hook:hook是用于在备份前或备份后执行某些指令,实现用户对备份的精细化控制,hook 类似于执行 kubectl exec 命令,目前只对 Pod 有效。
- includedNamespaces/excludedNamespaces:指定对某些 namespace 下的 Pod 执行/不执行 hook ,互斥选项,默认表示所有namespace
- labelSelector:指定对具有某些 label 的 Pod 执行 hook,参照 K8s 的标准用法,按需选择
- command:指定 hook 的执行命令
- container :指定执行命令的容器名,当 Pod 有多个容器时用于精细化控制,默认为Pod 的第一个容器。
- onError:指定 hook 执行失败时的行为,可选择 Continue/Fail ,默认为 Fail。
- Continue:表示 hook 执行失败不影响后续动作的继续执行;Fail 表示 hook 执行失败将不会继续后续备份动作。
- timeout:指定 hook 执行的超时时间,超过时间后认为 hook 执行失败,默认为 30s。
hook 是针对 Pod 而言,hook 执行失败可能影响的后续备份动作也是针对执行 hook 的 Pod 而言,对其他对象比如 services 等的备份没有影响。
由于 hook 是针对 Pod 而言,因此 hook 并非全局可用的。当需要执行 hook 的 Pod 没有被选择为备份对象时,hook 不会被执行。可以认为 hook 的"includedNamespaces/excludedNamespaces" 配置是在被筛选为需要备份的对象中进一步进行筛选。
上文中给出了所有的可配置项,在这里一方面基于实际备份场景,一方面为了用于便于操作,给出备份配置建议。
- 备份的保存时间按照"天"(24h)粒度进行控制。
- 当前应用基本会部署到特定namespace中,因此建议使用 includeNamespace 划定备份范围。如果需要更精细的备份对象控制,可以应用 labelSelector,前提是明确所有需要备份的对象具有相应的label。"includeNamespace + labelSelector" 能够满足绝大多数场景的使用。
- 使用 restic 备份业务数据时,如果对 OUT/IN 方式不熟悉,可以不对需要备份卷的 Pod 增加 annotation,通过简单的配置 defaultVolumesToRestic 选项为 true/false 对 Pod 使用的卷整体进行业务数据备份/不备份。
- 在需要对备份进行精细化控制时使用 hook ,尽量避免执行长时间运行的任务。另外,hook 中执行的命令不要直接操作文件系统。
备份执行后,可通过如下命令查看备份状态。status中会列出详细的状态。
$ kubectl -n velero get backups backup-01 -o yaml | grep "phase" phase: Completed $ kubectl -n velero get backups backup-01 -o yaml …… status: ……
备份状态说明
- FailedValidation:备份模板配置错误,可以查看 Backup.Status.ValidationErrors 发现错误配置原因
- InProgress:备份正在进行中
- Completed:备份完成,没有错误
- PartiallyFailed:备份完成,但是备份某些对象的过程中出现错误(比如 hook 执行错误)
- Failed:备份失败,出现影响整体备份的错误
- Deleting:备份正在删除中
首次备份完成后,OBS桶中会出现backups和restic两个文件夹。
备份日志存储在OBS桶中,假设备份名为 backup-001,进入到OBS存储服务的页面,根据在备份存储库中配置的桶名和子路径名找到存储位置,进入 backups/backup-01 目录下,找到 backup-01-logs.gz 文件,随后下载、解压并查看。
周期备份
操作后会基于配置以一定的周期重复性地执行备份过程,比较适用于容灾。
编辑 Schedule 模板,如下所示,随后通过 kubectl create 命令创建。用户可以自行按照需要给 Schedule 模板打上 label,Schedule 上的 label 都会打到通过 schedule 创建的 backup 上。Schedule 创建到集群后,会立即执行一次备份,后续按照设定的定时周期重复执行备份过程。
apiVersion: velero.io/v1 kind: Schedule metadata: name: schedule-backup-001 namespace: velero spec: schedule: 0 */10 * * * template: runMode: Normal hooks: {} includedNamespaces: - nginx - mysql labelSelector: matchExpressions: - key: direction operator: In values: - back - front matchLabels: app: nginx backup: velero storageLocation: backup-location-001 ttl: 720h0m0s
参数说明如下。
- schedule:创建的定时表达式,指定备份的周期执行时间。支持 @every格式 和 Linux标准cron表达式。
- @every NUnit:其中N表示一个正整数,Unit可以为s, m, h,表示每隔N个Unit时间触发一次,例如:@every 2h30m,每隔2小时30分执行一次。
- 标准cron表达式:采用五子表达式,分别是 Minute,Hour,Day-of-Month,Month,Day-of-Week。
- template:备份的模板,与备用应用(立即备份)中spec一致。
删除备份
删除集群中创建的备份对象及其相关对象(比如:Backup/Restore/Schedule等),并且将后端存储库中的备份内容删除,适用于产生大量备份数据时进行的清理工作。
编辑 DeleteBackupRequest 模板,如下所示,随后通过 kubectl create 命令创建。
apiVersion: velero.io/v1 kind: DeleteBackupRequest metadata: name: backup-001-delete namespace: velero spec: backupName: backup-001 # 指定要删除的备份名
查看状态。
$ kubectl -n velero get deletebackuprequests backup-001-delete -o yaml | grep " phase" phase: InProgress
- InProgress:删除任务正在进行中。
- Processed:删除任务已经被处理过。
- Processed 状态只意味着 E-Backup 处理过该任务,但是不一定能够完成该任务。可以通过查看 deletebackuprequest.status.errors 字段查看执行删除任务期间出现的错误。如果 E-Backup 正确完整地处理完删除任务,则该 deletebackuprequest 对象本身也会被删除。
- 后端存储库(OBS桶)中的内容不要人为进行手动删除。
立即恢复
将某个立即备份作为数据源,恢复应用到另一个 namespace/集群 中,全场景适用。
编辑 Restore 模板,如下所示,随后通过 kubectl create 命令创建。
apiVersion: velero.io/v1 kind: Restore metadata: name: restore-01 namespace: velero spec: backupName: backup-01 hooks: resources: - name: restore-hook-1 includedNamespaces: - mysql labelSelector: {} postHooks: - init: initContainers: - name: restore-hook-init1 image: alpine:latest volumeMounts: - mountPath: /restores/pvc1-vm name: pvc1-vm command: - /bin/ash - -c - echo -n "FOOBARBAZ" >> /restores/pvc1-vm/foobarbaz - name: restore-hook-init2 image: alpine:latest volumeMounts: - mountPath: /restores/pvc2-vm name: pvc2-vm command: - /bin/ash - -c - echo -n "DEADFEED" >> /restores/pvc2-vm/deadfeed - exec: execTimeout: 1m waitTimeout: 5m onError: Fail container: mysql command: - /bin/bash - '-c' - 'while ! mysql_isready; do sleep 1; done' - exec: container: mysql waitTimeout: 6m execTimeout: 1m onError: Continue command: - /bin/bash - '-c' - 'mysql < /backup/backup.sql' includedNamespaces: - nginx - mysql namespaceMapping: nginx: nginx-another mysql: mysql-another labelSelector: {} preserveNodePorts: false storageClassMapping: disk: csi-disk obs: csi-obs imageRepositoryMapping: quay.io/coreos: swr.cn-south-1.myhuaweicloud.com/everest
参数说明如下。
- 选择数据源
- 资源过滤相关:这里的过滤是指对已经备份的内容进行的过滤,参考备用应用(立即备份)中资源过滤相关的配置。
- 特殊处理相关
- namespaceMapping:指定将已备份的内容恢复到另一个 namespace 中,以 map 形式给出,格式为"source: target",不要求新的 namespace 在目的集群存在
- storageClassMapping:改变备份资源PV、PVC等使用的storageClassName,要求StorageClass类型相同。
- imageRepositoryMapping:改变备份资源的images字段,用于仓库的映射关系,不包含镜像名字和标签的改变(防止迁移和升级耦合在一起),比如:quay.io/coreos/etcd:2.5 搬迁到SWR后,使用本地镜像仓库下 swr.cn-south-1.myhuaweicloud.com/everest/etcd:2.5,配置格式为:quay.io/coreos: swr.cn-south-1.myhuaweicloud.com/everest
- preserveNodePorts:如果设置成不保留,则不保留的是 Service 自动生成的 nodePort,用户手动配置的 nodePort 仍然会保留
- hook相关:Restore 模板的 hook 配置和 Backup 模板的不太相同,共有两种类型,一种是 init 类型,用于向 Pod 中添加 initContainer;一种是 exec 类型,用于执行某些指令。init 类型的 hook 请参照 K8s 中 initContainers 的定义方式进行配置,下面介绍有关 hook 整体选择的参数和 exec 类型的参数。
- includedNamespaces/excludedNamespaces:指定对某些 namespace 下的 Pod 执行/不执行 hook ,互斥选项,默认表示所有namespace
- labelSelector:指定对具有某些 label 的 Pod 执行 hook,参照 K8s 的标准用法,按需选择。
- command:指定 hook 的执行命令。
- container:指定执行命令的容器名,当 Pod 有多个容器时用于精细化控制,默认为Pod的第一个容器。
- onError:指定 hook 执行失败时的行为,可选择 Continue/Fail ,默认为 Fail。
- Continue :表示 hook 执行失败不影响后续动作的继续执行;Fail 表示 hook 执行失败将不会继续后续动作。
- execTimeout:指定 hook 执行的超时时间,超过时间后认为 hook 执行失败,默认为 30s。
- waitTimeout:指定 E-Backup 准备执行 hook 时到容器开始执行 hook 的等待超时时间,超时后认为 hook 执行失败,默认为 0s,表示没有超时限制。
- 数据源的选择请指定正确,保证该 Backup 是 Completed 状态
- 资源过滤相关的参数只在确有需要的时候进行配置,否则无需配置
- 业务数据的恢复由 E-Backup 自行根据备份时选择的方式进行针对性的恢复,用户无需担心,也没有相应的配置
- hook 的使用建议参照立即备份中的 hook 使用建议,waitTimeout 在无必要的情况下可以不进行配置
- 恢复时建议配置恢复到新的 namespace 下,按照备份什么就恢复什么的原则,避免自行的配置失误导致恢复后的应用无法启动运行
恢复执行后,可通过如下命令查看恢复状态。status中会列出详细的状态。
$ kubectl -n velero get restores restore-01 -o yaml | grep " phase" phase: Completed $ kubectl -n velero get restores restore-01 -o yaml …… status: ……
恢复状态说明
- FailedValidation:恢复模板配置错误,可以查看 Restore.Status.ValidationErrors 发现错误配置原因。
- InProgress:恢复正在进行中。
- Completed:恢复完成,没有错误。
- PartiallyFailed:恢复完成,但是恢复某些对象的过程中出现错误(比如 hook 执行错误)。
- Failed:恢复失败,出现影响整体恢复的错误。
查看恢复日志以及过程中的 warnings 和 errors 信息。
假设恢复名为 restore-01 ,进入到OBS控制台,根据在备份存储库中配置的桶名和子路径名找到存储位置,进入 restores/restore-01 目录下,有如下两个文件。
- restore-01-logs.gz:日志文件,随后下载、解压并查看日志。
- restore-01-results.gz:恢复结果文件,包含 warnings 和 errors 信息。
版本记录
插件版本 |
支持的集群版本 |
更新特性 |
---|---|---|
1.2.0 |
v1.15 v1.17 v1.19 v1.21 |
|