更新时间:2026-01-08 GMT+08:00
分享

处理事件单

事件单接收后,相关责任人需严格遵循标准化流程推进全流程处置,确保响应及时、处理规范、结果可控。责任人首先需完成受理环节,快速核验单据信息完整性(含事件描述、影响范围、紧急程度等),明确受理状态并同步反馈发起方;随后进入核心处理环节,结合事件类型制定针对性解决方案,精准推进问题排查、资源协调、措施实施等操作,全程做好过程记录;处理完成后,需开展验证环节,通过实地核查、数据校验或发起方确认等方式,确保问题彻底解决,满足预期要求。整个流程以“闭环管理”为核心,规范操作、高效响应,保障业务运营稳定有序,提升问题处置质效与相关方满意度。

事件处理流程

  • 事件被创建后状态为“未受理”状态,未受理状态下可进行转发事件驳回事件受理事件等操作。
  • 事件单被驳回后为“被驳回”状态,创建人可关闭事件或更新事件信息后重新开启事件
  • 事件单被受理后为“已受理”状态,已受理状态下可进行执行响应预案升降级添加备注启动WarRoom等操作。
  • 事件单被处理后,进入“已解决待验证”状态,已解决待验证状态下可进行验证事件操作,验证通过后事件单进入“已完成”状态,验证不通过后,重新进入“已受理”状态。
  • 若需要配置自定义事件级别、类别、审批规则及故障复盘规则等功能,可参考基础配置-事件流程
图1 事件管理流程

添加备注

事件处理过程,若存在事件需要添加额外的备注信息,可使用添加备注的功能。

注意:事件受理后才能添加备注。

  1. 登录云运维中心
  2. 在左侧导航栏选择“故障管理 > 事件管理”。
  3. 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
  4. 单击右上方“... > 添加备注”。
  5. 在“添加备注”页面填写事件的备注信息。
  6. 单击“确定”,完成事件备注添加。

升降级

如果事件单在处理过程发现事件等级与实际情况不符,需修改级别,可以通过事件升降级操作进行。

注意:事件只有在受理后才能修改级别。事件级别降级可以增加审批流程,详细操作请参考事件审批,设置后满足条件的事件降级申请需要审批人审核通过或驳回后才可以完成事件降级流程。

  1. 登录云运维中心
  2. 在左侧导航栏选择“故障管理 > 事件管理”。
  3. 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
  4. 单击右上方“升降级”。
  5. 设置“升降级”。

    表3 升降级参数说明

    参数

    说明

    事件级别

    可选项“P1”、“P2”、“P3”、“P4”、“P5”。

    默认事件等级定义:

    P1:核心业务功能不可用,影响所有客户。

    P2:核心业务功能受损,影响部分客户,客户核心业务受影响。

    P3:非核心业务功能异常报错,影响部分客户业务。

    P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。

    P5:非系统业务异常,属于客户咨询、请求类问题。

    说明

    请填写业务影响和升降级理由。

  6. 单击“确定”。

    完成事件升降级。若事件增加了降级审批流程,满足条件的降级申请还需要审批人审核。

应用诊断

当事件创建后,您可以通过应用诊断(全链路诊断)功能快速定位故障根因。用户通过应用诊断可以查看应用层、组件层、资源层的关系拓扑,基于资源和应用告警的异常数据,并提供资源核心指标查看与实例诊断能力。

使用应用诊断需满足以下前提条件:

  • 确保已接入CES监控,请到集成管理进行配置。
  • 已创建事件单。
  • 如果需要展示CCE集群中的负载,pod信息,需要在CCE中对负载进行标签配置(每个分组只能添加一个CCE集群资源,否则不展示负载等信息)。
    图5 配置CCE负载标签

应用诊断操作请参考以下步骤:

  1. 登录云运维中心
  2. 在左侧导航栏选择“故障管理 > 事件管理”。
  3. 单击上方“全部事件单”。
  4. 选择需要诊断的事件单,单击事件标题。
  5. 单击上方“应用诊断”。
  6. 单击时间框,设置故障时间。

    时间框输入的时间为“结束时间”,“起始时间”为“结束时间”向前1小时。选择时间后,应用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。

  7. (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。

    勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。

  8. (可选)若应用有子应用,单击子应用。

    应用拓扑大屏展示该子应用下的所有组件,右侧详情页展示子应用故障详情。支持在拓扑大屏切换查看其它子应用。

  9. 单击应用或子应用下组件。

    应用拓扑大屏展示该组件下的所有资源,右侧详情页展示组件故障详情。支持在拓扑大屏切换查看其它组件。支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。

  10. 单击应用拓扑右侧“告警”。

    查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。

  11. 单击应用拓扑右侧“变更”。

    查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。

  12. 单击应用拓扑右侧“故障诊断”。

    查看资源的故障诊断数据,可以对应用的DCS、RDS、DMS、ECS、ELB资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。

    未创建过诊断或创建新诊断,具体操作如下。

    1. 单击“创建诊断”。
    2. 选择资源类型和资源。
    3. 单击“确定”。
    4. 确认“《GuestOS诊断服务前端数据授权》”,单击“同意”。

      只有故障诊断选择ECS时需要签署同意许可。

    诊断完成后,单击诊断结果列表右侧“查看详情”,查看诊断报告。

相关文档