改进管理
改进管理的核心定位,是针对故障处置全流程中识别的产品功能性缺陷、运维体系性短板及管理流程性漏洞,通过标准化 “改进单” 建立 “需求提报 > 责任分配 > 进度跟踪 > 验证闭环” 的全生命周期管控机制,确保所有待改进事项可追溯、可量化、可落地。
在运维类改进事项中,典型场景如下:当某业务应用未针对特定异常场景(如接口超时、资源使用率阈值超限等)配置专项告警规则,导致软件产品异常状态无法被实时感知,进而引发故障扩大化风险时,需由运维责任团队优先启动告警策略补充流程,明确告警阈值、触发条件、通知链路及响应时效,通过技术手段提升异常发现的实时性与精准性,夯实运维风险防控能力。
改进单的需求来源需实现关键业务场景全覆盖,具体包括:日常运维事件(如故障报修、性能告警)处置复盘输出、WarRoom(应急指挥小组)重大故障协同处置后评估结论、混沌演练(通过主动注入故障验证系统韧性)中发现的薄弱点,以及 PRR(Production Readiness Review,生产就绪程度评估基线)评审形成的改进决议,确保各类潜在风险点均能转化为可执行的改进需求,推动运维管理体系持续迭代优化。
使用流程
事件、WarRoom、混沌演练、PRR评审创建改进单进行受理,并在期望时间内完成改进任务,处理改进单过程若发现责任人不是本人支持转发责任人,改进项完成后需验收人验收通过才能闭环。
前提条件
需要通过事件、WarRoom、混沌演练或PRR评审创建改进单。
处理改进单
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 改进管理”。
- 在“待处理的”页签,选择需要处理的改进单,单击改进单标题。
- 单击右上方“处理”。
- 设置“改进处理”。
表1 改进处理参数说明 参数
说明
问题原因
请填写问题发生的原因。
限制长度最长1000个字符。
改进措施
请填写详细的改进措施。
限制长度最长1000个字符。
- 单击“确定”。
完成改进单处理。
转发改进单
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 改进管理”。
- 在“待处理的”页签,选择需要转发的改进单,单击改进单标题。
- 单击右上方“转发”。
- 设置“转发”。
表2 转发参数说明 参数
说明
所属应用
在下拉列表选择改进单涉及的应用。
接收责任人
在下拉列表选择目标责任用户。
- 单击“确定”。
完成改进单转发。
验证改进单
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 改进管理”。
- 在“待处理的”页签,选择需要验证的改进单,单击改进单标题。
- 单击右上方“验证”。
- 设置“结论验证”。
表3 结论验证参数说明 参数
说明
改进验证
可选项“通过”、“驳回”。
驳回理由
仅改进验证选择“驳回”时需要设置。
请填写驳回的详细理由。
- 单击“确定”。
完成改进单验证。
查看改进单历史记录
- 登录云运维中心。
- 在左侧导航栏选择“故障管理 > 改进管理”。
- 在“待处理的”页签,选择需要验证的改进单,单击改进单标题。
- 单击上方“改进历史”。
查看改进单历史记录。