更新时间:2024-10-21 GMT+08:00

全链路故障诊断

操作场景

当事件创建后,您可以通过全链路故障诊断,快速定位故障根因。我们面向客户应用提供应用层、组件层、资源层的关系拓扑,实现基于资源和应用告警的异常染色,并提供资源核心指标查看与实例诊断能力。

前提条件

  • 确保已接入CES监控,请到集成管理进行配置。
  • 已创建事件单。
  • 如果需要展示CCE集群中的负载,pod信息,需要在CCE中对负载进行标签配置(每个分组只能添加一个CCE集群资源,否则不展示负载等信息)。
    图1 配置CCE负载标签

操作步骤

  1. 登录COC
  2. 在左侧菜单栏选择“故障管理 > 事件管理”,选择“全部事件单”页签,单击事件标题进入“事件详情”页面,选择“应用诊断”页签,进入“应用诊断”页面。
  3. 选择故障时间范围,用于将该时间段产生的告警进行异常染色,时间框支持输入“结束时间”,“起始时间”为“结束时间”向前1小时。支持时间轴自动刷新,当勾选“自动刷新”后,“结束时间”根据刷新频率自动刷新到系统最新当前。

    图2 故障时间范围选择

  4. 应用拓扑大屏默认显示当前应用下的所有子应用。

    图3 应用拓扑(应用层)

  5. 点击拓扑上的子应用,查看组件层,展示该子应用下的所有组件,并支持在拓扑顶部切换至查看其它子应用的组件。

    图4 应用拓扑(组件层)

  6. 点击拓扑上的组件,查看资源层,展示该组件下的所有资源,并支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。

    图5 应用拓扑(资源层)

  7. 选择应用拓扑右侧“告警”页签,查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。

    图6 告警列表

  8. 选择应用拓扑右侧“变更”页签,查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。

    图7 变更列表

  9. 选择应用拓扑右侧“故障诊断”页签,点击“创建诊断”按钮后,可以对应用的dcs、rds、dms资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。

    图8 创建诊断

  10. 诊断完成后,点击诊断结果列表中的“查看详情”按钮,可以查看诊断报告。

    图9 诊断报告