更新时间:2024-08-17 GMT+08:00
健康中心概述
集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。
健康诊断覆盖范围
健康诊断覆盖范围如下图所示:
图1 健康诊断覆盖范围
健康诊断能力项
- 支持开箱即用,可以在不开通监控中心情况下,进行基础的集群健康诊断
- 支持全量检查集群整体运行状况(开通监控中心后),发现集群故障与潜在风险
- 针对诊断结果,智能给出健康评分
- 支持定时巡检,并可视化巡检结果
- 支持查看巡检历史,方便用户分析故障原因
- 针对故障和潜在风险,给出风险等级并提供修复建议
使用场景
- 运维对集群做变更前的集群状况检测,可随时主动触发健康诊断
- 支持运维的定时巡检,可设置定时执行时间,定期检查集群风险
集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查:
维度 |
检查项 |
---|---|
运维层面 |
|
资源与业务层面 |
|
更多内容请参见诊断项及修复方案。