更新时间:2024-12-06 GMT+08:00

查看MRS集群告警

用户可以在MRS上查看、清除告警。一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。在MRS界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条,系统自动将最早的一万条已清除告警转存,转存路径为:

  • 3.x以前版本,主管理节点的“${BIGDATA_HOME}/OMSV100R001C00x8664/workspace/data”。
  • 3.x及后续版本,主管理节点的“${BIGDATA_HOME}/om-server/OMS/workspace/data”。

第一次转存告警时自动生成目录。

操作视频

本视频将分别为您介绍查看告警和事件信息及配置告警阈值的操作。

因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。

通过管理控制台查看与清除告警

  1. 登录MRS管理控制台。
  2. 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
  3. 单击“告警管理”,在告警列表查看告警信息。

    • 告警列表每页默认显示最近的十条告警。
    • 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。
    • 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。
    表1 告警信息说明

    参数

    参数说明

    告警ID

    告警的ID。

    告警名

    告警的名称。

    级别

    告警级别。

    MRS 3.x之前版本集群告警级别为:

    • 致命

      指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。

    • 严重

      指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。

    • 一般

      指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。

    • 提示

      指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。

    MRS 3.x及之后版本集群告警级别为:

    • 紧急

      指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。

    • 重要

      指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。

    • 次要

      指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。

    • 提示

      指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。

    生成时间

    产生告警的时间。

    定位信息

    告警的详细信息。

    操作

    当告警可手动清除时,单击“清除告警”进行处理。

    需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。

  1. 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。

    “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。

    查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。

  2. 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。

    如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。

通过Manager查看与清除告警(3.x及之后版本)

  1. 登录FusionInsight Manager。
  2. 选择运维 > 告警 > 告警,进入告警列表界面,
  3. 查看FusionInsight Manager中各集群上报的告警信息,包括告警名称、ID、级别、产生时间等信息,默认每页显示最近的十条告警。
  4. 单击指定告警名称左侧的,展开完整告警信息参数,各项说明如表2所示。

    表2 告警参数

    告警参数

    说明

    告警ID

    告警信息的ID。

    告警名称

    告警信息的名称。

    告警级别

    包含紧急、重要、次要、提示四项级别。

    产生时间

    产生告警的时间。

    清除时间

    告警检测到已清除的时间。如果未清除,则显示为“--”

    来源

    集群名称。

    对象

    触发告警的服务、进程或模块。

    是否自动清除

    能够在问题修复后自动清除告警。

    告警状态

    告警当前状态,包含自动清除、手动清除、未清除。

    告警原因

    告警可能的原因提示。

    序列号

    系统产生的告警计数。

    附加信息

    相关报错信息。

    MRS 3.3.0及之后版本:针对监控指标阈值转告警,可以在“附加信息”中查看监控指标值使用情况。

    定位信息

    定位告警的详细信息。主要包含以下信息:

    • 来源:产品告警的集群
    • 服务名:产生告警的服务名称
    • 角色名:产生告警的角色名称
    • 主机名:产生告警的主机名

  5. 管理告警。

    • 单击“导出全部”可导出全部告警详情。
    • 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
    • 支持通过指定对象或级别来筛选指定的告警。
    • 单击“高级搜索”显示告警搜索区域,搜索条件包括告警ID、告警名称、告警状态、开始时间和结束时间。单击“搜索”显示过滤后的告警,再次单击“高级搜索”,会显示已经填写的搜索条件数量。
    • 单个告警支持“清除”“屏蔽”以及“查看帮助”操作。
    • 告警条目较多时,可单击“归类视图”,系统会将未恢复的告警按照告警ID进行归类,方便用户查看。归类后单击告警名称后的未恢复条数,即可查看具体的告警详情。

通过Manager查看与清除告警(MRS 2.x及之前版本)

  1. 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。

    • 告警列表每页默认显示最近的十条告警。
    • 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。

  1. 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。

    “开始时间”“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。

    查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。

  2. 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。

    如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。