事件单接收后,相关责任人需严格遵循标准化流程推进全流程处置,确保响应及时、处理规范、结果可控。责任人首先需完成受理环节,快速核验单据信息完整性(含事件描述、影响范围、紧急程度等),明确受理状态并同步反馈发起方;随后进入核心处理环节,结合事件类型制定针对性解决方案,精准推进问题排查、资源协调、措施实施等操作,全程做好过程记录;处理完成后,需开展验证环节,通过实地核查、数据校验或发起方确认等方式,确保问题彻底解决,满足预期要求。整个流程以“闭环管理”为核心,规范操作、高效响应,保障业务运营稳定有序,提升问题处置质效与相关方满意度。
图1 事件管理流程
驳回事件
事件单创建后,若事件不合理或其他原因事件处理人可驳回事件,驳回后事件单创建人可重新修改提交或闭环。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件单标题。
- 单击右上方“驳回”。
图2 驳回事件单
- 填写驳回原因,单击“确定”。
图3 填写事件原因
重新开启事件
事件单被驳回后,事件提单人再次确认该故障需要提交,可以修改事件单内容后重新提交。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“重新开启”。
- 设置“修改事件单”。
表1 修改事件单参数说明
|
参数 |
说明 |
|
事件名称 |
根据命名规则,自定义事件的名称。 |
|
事件描述 |
对事件进行描述。 |
|
上传附件 |
单击“添加文件”上传事件相关附件。
支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,单个文件大小不能超过10MB。 |
|
事件级别 |
可选项“P1”、“P2”、“P3”、“P4”、“P5”。
说明:
事件等级定义:
P1:核心业务功能不可用,影响所有客户。
P2:核心业务功能受损,影响部分客户,客户核心业务受影响。
P3:非核心业务功能异常报错,影响部分客户业务。
P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。
P5:非系统业务异常,属于客户咨询、请求类问题。
|
|
事件类别 |
可选参数。在下拉列表选择事件的类别。 |
|
事件归属 |
可选参数。在下拉框中选择事件的归属。
|
|
区域 |
可选参数。默认“不涉及”。在下拉列表选择事件发生的区域。 |
|
企业项目 |
在下拉列表中选择企业项目。 |
|
故障发生时间 |
请填写故障发生的时间。 |
|
故障应用 |
在下拉列表选择事件涉及的故障应用。 |
|
业务是否中断 |
可选项“是”、“否”。 |
|
责任人 |
可选项“排班”、“个人”。
- 排班:按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。
- 个人:选择责任用户。配置责任用户详细操作请参考人员管理。
|
- 单击“确定”。
完成事件单重新开启,事件状态变更为“未受理”。
转发事件
事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“转发责任人”。
- 设置“转发责任人”。
图4 转发责任人
表2 转发责任人参数说明
|
参数 |
说明 |
|
转发责任人 |
可选项“排班”、“个人”。
- 排班:按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。
- 个人:选择责任用户。配置责任用户详细操作请参考人员管理。
|
|
说明 |
请填写转发说明。 |
|
当前阶段定位情况 |
请填写当前阶段定位情况。 |
- 单击“确定”。
完成事件转发。事件责任人为设置的“转发责任人”。
受理事件
事件创建后,事件责任人分析事件实际情况,若属实则事件责任人受理事件并进行后续处理,完成事件的闭环。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“受理”。
完成事件受理,事件状态变更为“已受理”。
添加备注
事件处理过程,若存在事件需要添加额外的备注信息,可使用添加备注的功能。
注意:事件受理后才能添加备注。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“... > 添加备注”。
- 在“添加备注”页面填写事件的备注信息。
- 单击“确定”,完成事件备注添加。
升降级
如果事件单在处理过程发现事件等级与实际情况不符,需修改级别,可以通过事件升降级操作进行。
注意:事件只有在受理后才能修改级别。事件级别降级可以增加审批流程,详细操作请参考事件审批,设置后满足条件的事件降级申请需要审批人审核通过或驳回后才可以完成事件降级流程。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“升降级”。
- 设置“升降级”。
表3 升降级参数说明
|
参数 |
说明 |
|
事件级别 |
可选项“P1”、“P2”、“P3”、“P4”、“P5”。
默认事件等级定义:
P1:核心业务功能不可用,影响所有客户。
P2:核心业务功能受损,影响部分客户,客户核心业务受影响。
P3:非核心业务功能异常报错,影响部分客户业务。
P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。
P5:非系统业务异常,属于客户咨询、请求类问题。 |
|
说明 |
请填写业务影响和升降级理由。 |
- 单击“确定”。
完成事件升降级。若事件增加了降级审批流程,满足条件的降级申请还需要审批人审核。
应用诊断
当事件创建后,您可以通过应用诊断(全链路诊断)功能快速定位故障根因。用户通过应用诊断可以查看应用层、组件层、资源层的关系拓扑,基于资源和应用告警的异常数据,并提供资源核心指标查看与实例诊断能力。
使用应用诊断需满足以下前提条件:
- 确保已接入CES监控,请到集成管理进行配置。
- 已创建事件单。
- 如果需要展示CCE集群中的负载,pod信息,需要在CCE中对负载进行标签配置(每个分组只能添加一个CCE集群资源,否则不展示负载等信息)。
图5 配置CCE负载标签
应用诊断操作请参考以下步骤:
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 单击上方“全部事件单”。
- 选择需要诊断的事件单,单击事件标题。
- 单击上方“应用诊断”。
- 单击时间框,设置故障时间。
时间框输入的时间为“结束时间”,“起始时间”为“结束时间”向前1小时。选择时间后,应用拓扑大屏展示所选时间段内应用和子应用的告警数量,右侧详情页展示应用故障详情。
- (可选)勾选“自动刷新”,自动刷新下拉列表选择刷新频率。
勾选“自动刷新”后,“结束时间”按照刷新频率自动刷新到系统当前时间。
- (可选)若应用有子应用,单击子应用。
应用拓扑大屏展示该子应用下的所有组件,右侧详情页展示子应用故障详情。支持在拓扑大屏切换查看其它子应用。
- 单击应用或子应用下组件。
应用拓扑大屏展示该组件下的所有资源,右侧详情页展示组件故障详情。支持在拓扑大屏切换查看其它组件。支持核心云服务的指标展示,如果在应用管理中有关联APM,也可以查看链路相关指标。
- 单击应用拓扑右侧“告警”。
查看应用告警,列表展示告警产生时间范围在右侧时间轴内的告警。支持选择左边拓扑对象后,自动筛选选择对象的告警信息。
- 单击应用拓扑右侧“变更”。
查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。
- 单击应用拓扑右侧“故障诊断”。
查看资源的故障诊断数据,可以对应用的DCS、RDS、DMS、ECS、ELB资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。
未创建过诊断或创建新诊断,具体操作如下。
- 单击“创建诊断”。
- 选择资源类型和资源。
- 单击“确定”。
- 确认“《GuestOS诊断服务前端数据授权》”,单击“同意”。
诊断完成后,单击诊断结果列表右侧“查看详情”,查看诊断报告。
执行响应预案
事件受理并定位故障原因后,可以通过处理事件功能快速执行应急预案、脚本或作业来处理故障,并在事件处理功能中记录事件详情。
事件来源为“告警”的事件可以在事件详情中查看关联的原始告警。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 根据执行的响应预案。
- 若选择应急预案,在下拉列表选择相应的应急预案,单击“执行响应预案”。
执行步骤5。
若没有合适的应急预案需要创建,单击“创建应急预案”,详细步骤请参考创建应急预案。
- 若选择脚本,在下拉列表选择相应的脚本,单击“执行响应预案”。
执行步骤7。
若没有合适的脚本需要创建,单击“创建脚本”,详细步骤请参考创建脚本。
- 若选择作业,在下拉列表选择相应的作业,单击“执行响应预案”。
执行步骤8。
若没有合适的作业需要创建,单击“创建作业”,详细步骤请参考创建作业。
- 确认应急预案步骤,单击“执行”。
- 根据应急预案关联的任务类型。
- 若任务类型为脚本,执行步骤7。
- 若任务类型为作业,执行步骤8。
- 设置“执行脚本”。
- 脚本入参:脚本入参在录入自定义脚本时已预置好参数名称与参数默认值。
- 执行用户:默认“root”,目标实例节点上执行脚本的用户。
- 超时时间:默认“300”秒,脚本在单个目标实例上执行的超时时间。
- 目标实例:单击“添加实例”,设置“选择实例”。
表4 选择实例参数说明
|
参数 |
说明 |
示例 |
|
选择方式 |
请选择实例选择方式。
- 手动选择:根据“企业项目”、“视图类型”、“资源类型”、“区域”和“目标实例”确认筛选条件,手动选择实例。
|
手动选择 |
|
企业项目 |
在下拉列表中选择企业项目,支持选择“全部”。 |
全部 |
|
视图类型 |
请选择视图类型。
- CMDB资源视角:以资源视角选择实例列表。
- CMDB应用视角:以应用视角选择实例列表。
|
CMDB资源视角 |
|
资源类型 |
可选项“ECS”、“BMS”。 |
ECS |
|
区域 |
在下拉列表中选择区域。 |
华北-北京一 |
|
目标实例 |
在筛选框设置条件,选择筛选出的实例。 |
- |
- 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
- 熔断策略:
- 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。
- 成功率取值范围0~100,支持精确到小数点后一位。
跳过步骤8,执行步骤9。
- 设置“执行作业”。
- 区域:请选择目标实例所在区域。
- 目标实例模式:请选择作业步骤和目标实例的执行方式。
- 所有步骤一致:所有任务在所选目标实例执行,统一使用一个分批策略。
- 每个步骤独立:单个步骤下的任务在所选目标实例执行,每个步骤使用一个分批策略。
- 每个任务独立:可独立设置每个作业任务执行的目标实例和分批策略。
- 作业步骤:可自定义配置作业详情。
- 单击具体作业名称,右侧弹出“修改参数”页面。
- 设置“输入”、“输出”参数,设置“异常处理”选项。
- 目标实例:单击“添加实例”,设置“选择实例”。
表5 选择实例参数说明
|
参数 |
说明 |
示例 |
|
选择方式 |
请选择实例选择方式。
- 手动选择:根据“企业项目”、“视图类型”、“资源类型”、“区域”和“目标实例”确认筛选条件,手动选择实例。
|
手动选择 |
|
企业项目 |
在下拉列表中选择企业项目,支持选择“全部”。 |
全部 |
|
视图类型 |
请选择视图类型。
- CMDB资源视角:以资源视角选择实例列表。
- CMDB应用视角:以应用视角选择实例列表。
|
CMDB资源视角 |
|
资源类型 |
可选项“ECS”、“BMS”。 |
ECS |
|
区域 |
默认参数,不支持修改,由“执行内容”中“区域”决定。 |
华北-北京一 |
|
目标实例 |
在筛选框设置条件,选择筛选出的实例。 |
- |
- 分批策略:可选项为“自动分批”、“手动分批”、“不分批”,只可选择其中一项。
- 自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。
- 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。
- 不分批:用户所有待执行的机器会全部在同一批次。
- 单击“确定”。
- 对于工单执行是否完成,支持以下操作:
- 若工单执行中:
- 暂停:单击右上方“暂停”,当前批次执行完成后下一批次暂停执行。
- 继续:单击右上方“继续”,继续执行已暂停的批次。
- 强制结束:单击右上方“强制结束”,结束待执行或异常的工单。
- 若工单执行完成:根据执行状态“异常”或“成功”:
- 异常:工单中有部分或全部实例任务执行异常。
- 选择“异常”批次,单击异常实例右侧“重试”,重新执行所选实例的任务。
- 选择“异常”批次,单击异常实例右侧“取消”,取消所选实例的任务。
- 成功:工单执行成功。
查看事件处理详情
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 >事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“事件处理”,设置“事件处理”。
表6 事件处理参数说明
|
参数 |
说明 |
|
事件类别 |
必填项,在下拉列表选择事件的类别。 |
|
业务是否中断 |
必填项,可选项“是”、“否”。 |
|
故障发生时间 |
请填写故障发生时间。
当“业务是否中断”选择“是”时为必填项。 |
|
定界完成时间 |
请填写问题/故障定位完成时间。 |
|
故障恢复时间 |
请填写故障恢复时间。
当“业务是否中断”选择“是”时为必填项。 |
|
出现原因 |
必填项,请填写事件产生原因。 |
|
解决方案 |
必填项,请填写事件解决方案。 |
|
添加文件 |
单击“添加文件”上传事件相关附件。
支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,上传文件不能超过10MB。 |
- 单击“确定”。
完成事件处理详情设置。
验证事件
事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“验证关闭”。
- 设置“验证关闭”信息。
表7 验证关闭参数说明
|
参数 |
说明 |
|
验证结论 |
可选项“已解决”、“未解决”。
选择“未解决”将会驳回事件,事件流程重新变为“待处理”。 |
|
说明 |
请填写事件相关说明。 |
- 单击“确定”。
完成事件验证的处理。
创建改进单
事件单受理过程发现该故障有产品、运维的改进事项,可创建改进单进行跟进处理。
注意:事件受理后才能创建改进单。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
- 单击右上方“
> 创建改进单”或“创建改进单”。
- 设置“创建改进单”。
表8 创建改进单参数说明
|
参数 |
说明 |
|
改进单名称 |
自定义改进单的名称。 |
|
所属应用 |
在下拉列表选择改进单涉及的应用。 |
|
改进类型 |
在下拉列表选择改进类型。 |
|
改进责任人 |
在下拉列表选择责任用户。 |
|
改进验收人 |
在下拉列表选择验收用户。 |
|
期望完成时间 |
请填写期望完成时间。
支持选择到日,时间不得早于今天。 |
|
问题现象 |
请填写事件相关的问题现象。
限制长度最长1000个字符。 |
|
改进闭环标准 |
请填写改进闭环标准。
限制长度最长1000个字符。 |
- 单击“确定”。
完成改进单创建。事件详情页面单击“改进记录”,查看改进单状态及当前责任人。单击改进单名称,进入改进管理页面可以处理改进单。
事件历史记录
若需追溯事件处理阶段中某个节点做了什么操作,可以查看事件的历史记录,事件历史记录包含事件的整个处理过程。
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 事件管理”。
- 单击上方“全部事件单”。
- 选择需要查看的事件单,单击事件标题。
- 单击上方“事件历史”。