更新时间:2024-09-02 GMT+08:00
使用健康中心
云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。
前提条件
- 已获取资源权限
- 集群版本高于v1.17。
- 集群处于“运行中”状态。
功能入口
- 登录CCE控制台,单击集群名称进入集群详情页。
- 在左侧导航栏中选择“健康中心”。
您可以在不开通监控中心的情况下,进行基础的集群健康诊断。如果想体验更丰富的诊断能力,请参考开通监控中心开通。
配置定时巡检规则
在“健康诊断”页面右上角打开“定时巡检”开关,并配置定时巡检启动的时间。集群将在指定时间自动开始集群巡检任务。单个集群,每天仅支持配置一个定时巡检时间。
图1 定时巡检
手动发起诊断
当您初次使用健康诊断时,单击“马上诊断”,集群将开始执行诊断。等待一段时间后,健康诊断页面将显示健康评分、风险分布雷达图、诊断风险汇总、历史风险分布,以及诊断结果。
图2 诊断概览
查看诊断结果
诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。
健康诊断将针对不同维度的巡检项,归纳Kubernetes中常见的问题,并提供相应的修复建议。用户可以单击“诊断详情”查看具体诊断项的详细信息以及存在异常的资源。在部分场景下,页面还提供相应的排查文档,供用户参考排查。
图3 诊断结果