查看AOM告警或事件
“告警列表”页面提供告警和事件的查询和处理功能,便于您更快地发现、定位并恢复故障。
功能介绍
- 在告警列表中,有以下关键功能:
- 告警列表:支持按告警级别图形化查看告警信息。
- 高级过滤:支持在搜索框中按告警级别 、告警源、告警关键字等条件进行过滤,默认按照告警级别过滤。
- 告警清除:支持单个、批量清除告警。
- 告警详情:在告警详情中查看告警对象的信息和修复建议,所有的告警都提供修复建议。
- 在事件列表中,有以下关键功能:
- 事件列表:支持按事件级别图形化查看事件信息。
- 高级过滤:支持在搜索框中按事件级别 、事件源、事件关键字等条件进行过滤,默认按照事件级别过滤。
约束与限制
- 指标类告警规则触发的告警,默认持续时长为5天,超过5天将自动清除,转为历史告警。
- 当通过API渠道上报告警时,如果没指定timeout参数值(指定AOM自动清除超期告警的时间段)则默认保留15天,超过15天将自动清除活动告警,转为历史告警;如果指定了timeout参数值(最长不超过15天),则按照设置的时间来清除活动告警,转为历史告警。当前该功能受限部分区域的用户开放,如有需求可以通过提交工单,为您开放此功能。
- 当您进入告警列表页面后,界面会弹出“开启告警规则执行历史记录”的提示框,您可以根据实际需求单击“一键开启”或单击“前往设置开启”开启“告警规则执行历史”开关。开关开启后,Prometheus监控和日志监控告警规则执行日志将上报到LTS日志流alarm-execution-history(日志组为lts-system)中,您可以查看告警规则的历次执行情况、告警是否触发、是否发送通知、通知内容和通知渠道等信息。会产生少量日志费用,LTS计费详情请参考LTS计费项说明。如果您暂不需要查看告警规则执行历史记录,可勾选“不再提示”前的复选框,取消提示信息。当前“开启告警规则执行历史记录”的提示框功能受限部分区域的用户开放,如有需求可以通过提交工单,为您开放此功能。
- 针对同一个告警,如果重复上报多条,告警列表则只显示一条告警(即显示第一次上报的告警),直到告警恢复为止。当前该功能受限部分区域的用户开放,如有需求可以通过提交工单,为您开放此功能。
查看AOM告警或事件
- 登录AOM 2.0控制台。
- 在左侧导航栏中选择“告警中心 > 告警列表”。
- 单击“告警”或“事件”页签,查看告警或事件信息。
- 设置时间范围,查看已设时间范围内产生的告警或事件。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为31天。(当前部分区域仅支持查看最近30天内的数据。)
- 设置告警或事件信息的刷新频率。单击
,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。
- 在搜索框设置搜索条件后,查看在已设时间范围内满足搜索条件的告警或事件。支持在搜索框中过滤搜索告警或事件。
表1 搜索条件说明 搜索条件
搜索条件说明
设置样例
告警级别/事件级别
支持选择如下告警或事件级别进行搜索:- 紧急
- 重要
- 次要
- 提示
告警级别:重要,即可查询出指定时间范围内告警级别为“重要”的告警。
资源类型
支持选择资源类型别进行搜索。
资源类型:Host,即可查询出指定时间范围内资源类型为“Host”的告警。
告警源/事件源
支持选择告警源搜索告警,或者选择事件源搜索事件。
告警源:AOM,即可查询出指定时间范围内告警源为“AOM”的告警。
告警关键字/事件关键字
- 告警关键字:支持按告警名称 、 告警源、资源类型等告警关键字进行模糊查询。搜索框的筛选条件设置为“告警关键字”,然后输入关键字信息。
- 事件关键字:支持按事件名称 、 事件源、资源类型等事件关键字进行模糊查询。搜索框的筛选条件设置为“事件关键字”,然后输入关键字信息。
告警关键字:AOMRule,其中AOMRule为告警名称,即可查询出指定时间范围内告警名称为“AOMRule”的告警。
自定义属性
支持根据告警信息或事件信息中的自定义属性进行精确查询。
搜索框的筛选条件设置为“自定义属性”,然后输入自定义属性信息“自定义属性名称=自定义属性值”。
- 自定义属性:nodeIP=192.168.0.106,即可查询出指定时间范围内自定义属性主机IP(nodeIP)为192.168.0.106的相关告警。
- 您可参考表2执行如下操作:
表2 操作说明 操作
说明
查看告警或事件统计数据
单击
,可通过柱状图查看在指定时间范围内和搜索条件下告警或事件的统计数据。
下载告警
单击
,可以下载告警。单次下载最大支持下载1万条告警。
清除告警
告警故障已经解除时可进行清除操作。
- 清除一个告警:单击目标告警所在“操作”列中的“
”。
- 清除一个或多个告警:选中一个或多个告警前的复选框,在弹出框单击“批量清除”。
查看告警详情
单击告警名称可查看告警详情,包括告警信息和修复建议,如果在创建告警规则时关联了告警通知规则或告警降噪规则,还可查看告警通知规则或告警降噪规则的相关信息。
- 在“告警信息”页签下单击规则原始名称、日志组、日志流等蓝色字体可下钻到具体详情页面,查看更详细的数据。
- 告警源为LTS的告警:单击告警详情页中日志组、日志流、关键词、查询语句可跳转到具体详情页面,查看更详细的数据。
- 关联CCE类型Prometheus实例的告警规则触发的告警:单击告警详情页中涉及容器相关资源的cluster_name、node、pod、container时,可以跳转至AOM的系统内置仪表盘中查询相应时间的指标曲线。
- 规则类型为应用性能监控的告警规则触发的告警:单击告警详情页的应用、组件、环境,可跳转至组件详情页。
- 在“告警信息”页签下单击自定义属性的值,可以选择“复制”或“添加到查询”。
- 复制:复制自定义属性。
- 添加到查询:在“告警列表”的搜索框中按自定义属性过滤告警。
查看事件详情
单击事件名称可查看事件详情。
查看已清除告警
在右上角单击“活动告警”,在下拉列表中选择“历史告警”,可查看被清除的告警。
查看告警规则详情和告警执行历史
“告警”页签中告警源是LTS和AOM的活动告警支持查看告警规则详情和告警执行历史详情。(当前“事件”页签的事件告警不支持查看告警规则详情和告警执行历史。)
- 单击目标告警规则所在“操作”列中的“
”,在弹框中的“告警规则详情”页签查看此告警规则的所有参数设置。
- 单击目标告警规则所在“操作”列中的“
”在在弹框中的“告警执行历史”页签查看告警规则的历史执行情况、告警是否触发、通知发送状态、通知类型等信息。
- 查看告警执行历史需开启“告警规则执行历史”开关,详情请参考配置告警规则执行历史开关。
- 支持查询近30分钟、近1小时、近6小时、近1天、近1周、最近30天,近自定义时间段的告警执行历史。
- 支持在搜索框中按照告警分组ID、触发条件执行结果、描述、告警执行历史ID、告警规则ID进行过滤搜索告警执行历史。
- 如果AOM指标警规则或应用性能告警规则中配置了发送通知,则告警执行历史仅在首次发送告警通知时记录通知内容,重复发送告警通知时暂不支持记录告警详情和通知发送详情。
- 如果告警通知的消息模板是语音或welink,不支持查看具体的通知内容。
- 如果告警通知中配置的“接收对象”选择“通知组”时,触发告警通知后,“告警执行历史”页面展示的此种告警通知的“通知发送状态”为“未订阅”。(“通知组”依赖云监控CES融合功能,AOM暂无法获取此种告警通知的发送状态。)
- 查看告警规则详情和告警执行历史功能受限部分区域开放,如有需求可以通过提交工单,联系工程师为您开放此功能。
- 清除一个告警:单击目标告警所在“操作”列中的“