更新时间:2024-10-21 GMT+08:00
全链路故障诊断
操作场景
当事件创建后,您可以通过全链路故障诊断,快速定位故障根因。我们面向客户应用提供应用层、组件层、资源层的关系拓扑,实现基于资源和应用告警的异常染色,并提供资源核心指标查看与实例诊断能力。
- 确保已接入CES监控,请到集成管理进行配置。
- 已创建事件单。
- 如果需要展示CCE集群中的负载,pod信息,需要在CCE中对负载进行标签配置(每个分组只能添加一个CCE集群资源,否则不展示负载等信息)。
图1 配置CCE负载标签
操作步骤
- 登录COC。
- 在左侧菜单栏选择“故障管理 > 事件管理”,选择“全部事件单”页签,单击事件标题进入“事件详情”页面,选择“应用诊断”页签,进入“应用诊断”页面。
- 选择故障时间范围,用于将该时间段产生的告警进行异常染色,时间框支持输入“结束时间”,“起始时间”为“结束时间”向前1小时。支持时间轴自动刷新,当勾选“自动刷新”后,“结束时间”根据刷新频率自动刷新到系统最新当前。
图2 故障时间范围选择
- 应用拓扑大屏默认显示当前应用下的所有子应用。
图3 应用拓扑(应用层)
- 点击拓扑上的子应用,查看组件层,展示该子应用下的所有组件,并支持在拓扑顶部切换至查看其它子应用的组件。
图4 应用拓扑(组件层)
- 点击拓扑上的组件,查看资源层,展示该组件下的所有资源,并支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。
图5 应用拓扑(资源层)
- 选择应用拓扑右侧“告警”页签,查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。
图6 告警列表
- 选择应用拓扑右侧“变更”页签,查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。
图7 变更列表
- 选择应用拓扑右侧“故障诊断”页签,点击“创建诊断”按钮后,可以对应用的dcs、rds、dms资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。
图8 创建诊断
- 诊断完成后,点击诊断结果列表中的“查看详情”按钮,可以查看诊断报告。
图9 诊断报告
父主题: 处理事件