更新时间:2024-08-17 GMT+08:00

健康中心概述

集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。

健康诊断覆盖范围

健康诊断覆盖范围如下图所示:

图1 健康诊断覆盖范围

健康诊断能力项

  • 支持开箱即用,可以在不开通监控中心情况下,进行基础的集群健康诊断
  • 支持全量检查集群整体运行状况(开通监控中心后),发现集群故障与潜在风险
  • 针对诊断结果,智能给出健康评分
  • 支持定时巡检,并可视化巡检结果
  • 支持查看巡检历史,方便用户分析故障原因
  • 针对故障和潜在风险,给出风险等级并提供修复建议

使用场景

  • 运维对集群做变更前的集群状况检测,可随时主动触发健康诊断
  • 支持运维的定时巡检,可设置定时执行时间,定期检查集群风险

集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查:

维度

检查项

运维层面

  • 集群运维能力
  • 集群安全组配置正确性
  • 集群资源规划合理性
  • 租户配额是否充足

资源与业务层面

  • 存储插件(everest)健康程度
  • 日志采集插件(log-agent)健康程度
  • 域名解析插件(coredns)健康程度
  • 业务节点负载情况
  • 业务节点状态
  • Pod配置健康程度
  • Pod负载情况
  • Pod运行状态

更多内容请参见诊断项及修复方案