更新时间:2024-07-17 GMT+08:00
分享

问题和检查项

在迈向卓越运营的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有的检查项,也是最佳实践建议,将在下一章节进行详细描述。

问题

检查项/最佳实践

OPS01 您是否已经建立持续改进的团队文化和标准化运维体系?

1. 建立持续学习和改进的文化

2. 规划标准化的运维组织

3. 规划标准化的运维流程与运维工具

OPS02 您是否通过CI/CD实现高效的频繁可逆的小规模变更?

1. 进行需求管理与迭代开发

2. 关联源代码版本和部署的应用版本,使用代码质量最佳实践

OPS03 你是否有完备的测试验证体系?

1. 推行开发者测试

2. 使用多个环境进行集成测试,构建和生产环境相同的预生产环境

3. 性能压测

4. 生产环境拔测

5. 混沌测试和演练

OPS04 自动化构建和部署流程是否完备?

1. 有效落地持续集成

2. 采用持续部署模型

3. 基础设施即代码

4. 自动化工程运维任务

OPS05 是否有运维准备和变更管理体系?

1. 进行生产准备度评审

2. 进行变更风控

3. 定义变更流程

OPS06 是否建立了完备的可观测体系?

1.建立可观测体系

2.定义可观测对象

3.制定和实施可观测性指标

4. 规范化应用日志

5. 实施依赖项遥测

6. 实施分布式跟踪

7. 通过可观测性指标引入自动化措施

OPS07 是否进行故障分析与管理?

1. 创建可操作的告警

2. 创新监控看板

3. 支持事件管理

4. 支持故障恢复流程

OPS08 是否有运营状态度量和持续改进机制?

1. 使用度量指标衡量运营目标

2. 进行事故复盘和改进

3. 知识管理

相关文档