更新时间:2024-10-11 GMT+08:00

执行健康检查

操作场景

该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。

系统健康检查的范围包含Manager、服务级别和主机级别的健康检查:

  • Manager关注集群统一管理平台是否提供管理功能。
  • 服务级别关注组件是否能够提供正常的服务。
  • 主机级别关注主机的一系列指标是否正常。

系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。

操作步骤

  • 手动执行所有服务的健康检查

    在集群详情页,单击页面右上角“管理操作 > 启动集群健康检查”。

    • 集群健康检查包含了Manager、服务与主机状态的检查。
    • 在MRS Manager界面,选择“系统设置 > 健康检查 > 集群健康检查”,也可以执行集群健康检查。
    • 手动执行健康检查的结果可直接在检查列表左上角单击“导出报告”,选择导出结果。
  • 手动执行单个服务的健康检查
    1. 在集群详情页,单击“组件管理”。
    2. 在服务列表中单击指定服务名称。
    3. 选择“更多 > 启动服务健康检查”启动指定服务健康检查。
  • 手动执行主机健康检查
    1. 在集群详情页,单击“节点管理”。
    2. 展开节点组信息,勾选待检查主机前的复选框。
    3. 选择“节点操作 > 启动主机健康检查”启动指定主机健康检查。