云智慧数字化运维事件中心功能
事件概览
概览页面对 DOEM 中的事件进行统计和可视化展示,帮助维护人员从全局了解事件的整体情况;并为事件处置提供快速入口,便于工作人员快速开展工作。
进入 DOEM 模块后,默认展示概览页面,如下图所示:
- 默认展示最近 7 天的数据,在页面右上角可切换至最近 14 天。
- 事件概览:页面统计并展示系统下当前用户/所有事件总量以及当前用户今日事件的增量、今日所有事件的增量。事件概览帮助用户快速了解事件数量概况。
- 待办事件:展示当前用户/所有待处理事件总量和当前用户今日待处理事件的增量、今日所有待处理事件的增量。待办事件帮助用户快速查看待办事件的数量和新增情况,快速了解代办事件情况。
- 页面展示统计指标:压缩比、MTTA(平均响应时间)、MTTR(平均修复时间)。可查看趋势图快速了解数据趋势;鼠标悬停在趋势图上,可查看每天的数据。
- 压缩比:压缩比 = 1-(警报数/告警消息数)
- MTTA:从事件创建到事件接手的时间,取平台内所有事件的平均值
- MTTR:从事件创建到事件解决的时间,取平台内所有事件的平均值
- 告警事件趋势:告警事件趋势图统计并以不同的颜色展示告警事件数、警报数、告警数。可以查看所有的事件数和分配给自己的事件数趋势。
在趋势图下方单击告警事件数/警报数/告警数,可在趋势图中显示/隐藏相关数据。
图2 告警事件趋势
- 统计列表:包括待处理事件(TOP10)、对象告警(TOP10)、指标告警(TOP10)。
在待处理事件(TOP10)统计所有的待处理事件,单击事件名称,可快速跳转到事件详情页面,查看事件详情 。对象告警(TOP10)统计原始消息中对象的告警次数;指标告警(TOP10)统计原始消息中指标的告警次数。
- 事件级别分布图:展示过去7天,我的事件/所有事件的事件级别的占比。
- 事件状态分布图:展示过去7天,我的事件/所有事件的事件状态的占比。
告警源管理
接入告警源:DOEM 产品支持 REST API、Agent 主动采集、URL 回调等多种告警源接入方式,能够接入透视宝、监控宝、Zabbix、Kafka、Prometheus、邮件和华为云 SNMP 等多种自有监控系统及第三方监控系统中的告警消息。
告警合并规则管理
DOEM基于智能算法,支持对海量的、持续的冗余消息进行告警压缩和告警合并,抑制告警消息的数量,减少告警消息的频率,降低冗余告警消息对运维工作的干扰,提升运维工作的效率。
在成功接入告警源后,DOEM默认创建对应的告警合并规则,合并规则默认启动。也可以自定义告警合并规则。在设置>合并规则页面,可以查看所有的合并规则并对其进行统一的管理。
智能降噪(仅智能版提供该服务)
DOEM结合算法,通过将泛型应用在合并规则中对告警消息进行降噪处理,智能化生成算法事件,实现智能化告警管理,同时也支持在模型训练中应用算法泛型,查看训练结果。
使用步骤如下:
- 泛型管理新建/编辑一个泛型(可选)
- 在配置完告警源后,创建合并规则,选择智能降噪。
- 选择默认提供的泛型,或是步骤1) 中编辑的新泛型;并视情况填写对应的分组字段和关键词,保存合并规则并应用即可。
- 配置完成后即可在事件列表查看通过智能降噪生成的事件情况了。
- 新建离线数据导入任务(可选)。
- 泛型管理新建/编辑一个泛型(可选)。
- 创建模型训练任务,详情请参见创建模型并训练。
- 模型训练完成,在事件审查查看事件合并结果,人工反馈算法准确度。
- 若人工反馈该事件结果已满足,则继续下一步,若不满足则调整泛型并重新训练。
告警处置分派
告警消息根据事件合并规则生成事件后,DOEM将按照处置规则及时地将不同的告警事件分派给不同的人员,确保实时收到告警通知;或在DOSM中自动创建工单并进行流转;尽可能减少告警遗漏。处置规则支持自动升级分派。运维人员可在事件>我的事件中查看和处理相关告警事件或在DOSM中跟踪和处理相应的事件工单。
在左侧导航栏中单击设置>处置规则,进入处置策略管理页面,页面中显示事件处置策略列表和告警直发策略列表。在处置规则页面,支持统一管理(新建、编辑、删除、启动/暂停)处置规则。
告警事件管理
DOEM提供告警事件的统一展示与管理功能。事件列表展示信息包括公共字段:事件ID、事件名称、事件级别、优先级、创建时间、是否纳管、标签、警报数、告警源名称、检查项、最近更新时间、描述、处置人、事件分类、是否屏蔽、合并规则、警报/事件压缩率和自定义字段。
- 如果事件的告警对象为CMDB中管控的对象,且使用 ciid 或 modelid、ciname 做事件合并,那么事件显示为已纳管;否则,显示为未纳管。
- 只有告警压缩/合并事件有优先级。
- 事件优先级随其下警报级别动态变化。在事件列表中,支持手动更改事件/警报优先级;更改后的优先级不再动态更新。
在事件列表页面,可以查看所有的告警事件、事件警报、指标、时间线、记录以及根因分析等详细信息来实时跟踪事件的状态;还可以根据实际需要对告警事件执行接手、转派、转发以及解决等操作。
在事件中,事件列表分为我的事件、所有事件、归档事件:
- 我的事件:展示DOEM中当前用户的所有告警事件。可以对事件执行接手、解决、转发、转派以及批量处理等操作。
- 所有事件:展示DOEM中所有告警事件。在所有事件中,仅支持系统管理员处理事件(包括接手、解决、转发、转派事件),普通角色仅能查看事件,不能处置事件。
- 归档事件:展示XX天前已解决的事件。展示时间可联系云智慧运维人员配置。在归档事件中,支持查看事件,不支持处理事件(接手、解决、转发、转派事件)。在归档事件列表中,支持管理员删除事件。
查看分派记录
告警事件匹配相应的处置规则后,会分派给相应的处理人。在设置>分派记录中,可以查看相应的分派记录以及告警通知发送的状态。
筛选分派记录:分派记录支持根据通知状态、通知方式、发送时间、事件ID/名称以及通知类型进行筛选。通知方式包括邮件、短信、友商、WeLink、Webhook、工单。
当事件满足处置策略自动创建工单时,在分派记录中事件的通知方式为工单、接收方默认为DOSM,通知类型为空。
查看分派详情:在左侧导航栏中单击设置>分派记录,进入分派记录页面,页面中显示分派记录列表。在列表中,分派记录信息包括事件级别、事件名称、检查项、策略名称、接收方、通知方式、通知类型、发送状态以及发送时间。
告警静默管理
DOEM支持对告警监控任务或者告警源在维护时间窗口内产生的告警保持静默。目前支持无数据收集告警静默,即不监控告警任务和不产生告警,不接受来自告警源的原始告警消息。可以在设置>静默规则中添加并管理告警静默规则。
通知模板管理
- 在处置规则中定义了告警处置规则后,当告警事件触发告警时,告警事件的负责人将收到告警事件生成或者告警事件级别变更通知。通知方式目前支持邮件、短信、友商、WeLink、工单、系统消息等,可以在通知模板中设置告警触发通知模板和告警恢复通知模板。
- 在左侧导航栏单击设置>通知模板,进入通知模板页面。
图5 通知模板
字段映射规则管理
- 不同的监控系统,告警消息的数据格式可能不一样;且直接接入原始告警消息,会导致各类告警源的告警字段各不相同,增加存储资源的消耗,增加系统性能负担,因此需要DOEM支持对原始告警消息中的字段进行统一定义。字段映射规则模块支持字段映射,统一数据规范;支持新增字段、扩展CMDB属性字段、挂载资源;支持批量导出/导入,丰富告警消息字段,便于对告警消息进行管理。
- 在左侧导航栏单击设置>字段映射规则,进入字段映射规则页面。
图6 字段映射规则
系统设置
- 高频标签:在过去一段时间(用户配置)内出现频率较高的警报,给他打上高频标签
- 低频标签:过去一段时间内出现频率较低的警报,打上低频标签
- 新奇标签:过去一段时间内没有发生过的警报,打上新奇标签
- 周期性标签:警报每隔一周或一个月发生一次,连续三个周期都发生故障时,触发周期性标签时间范围支持选择到分钟、小时、天,出现次数必须是正整数。
标签针对的是警报的维度,警报内的告警次数增加不代表警报增加。所以,仅当警报首次发生,或从恢复变成异常状态时,才计一次数。
内置资源
如果用户同时使用云智慧系列产品DOEM和DOOP、监控宝、透视宝产品,当DOOP、监控宝、透视宝产品中产生告警时:
- 自动在DOEM中生成默认告警源。自动创建的告警源不支持回收。
- 默认合并规则,自动生成事件。
- 通知模板: 内置邮件/短信//WeLink/其他等通知模板(压缩合并模板)
- 处置规则(只适用于DOOP) :事件级别达到提示、次要,严重或灾难级别时立即通知CMDB处置人,默认邮件通知,默认支持事件级别变更,使用内置邮件模板。
常见问题说明
默认的告警消息的状态有几种?每种状态如何标识?
告警消息的状态有五种,对应颜色的标识如下:
颜色 |
告警状态 |
|
正常 |
|
未知 |
|
提示 |
|
次要 |
|
严重 |
|
灾难 |
- 灾难(Critical):表示核心服务已经停止并且产生重大影响,请立即处理。
- 严重(Major):表示部分服务已经停止并且产品影响,请立即处理。
- 次要(Moderate):表示核心服务负载过高,请注意并优化。
- 提示(Minor):表示系统或者应用当前的指标负载过高,请注意并优化。
- 正常(OK):表示告警消息已经从告警状态恢复为正常。
- 未知(Unknown)
支持用户在 nacos 新增自定义的告警级别,为其命名、选择颜色、更改等级排序支持删除不需要的告警级别