问题和检查项
在迈向卓越运营的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有的检查项,也是最佳实践建议,将在下一章节进行详细描述。
问题 |
检查项/最佳实践 |
OPS01 您是否已经建立持续改进的团队文化和标准化运维体系? |
1. 建立持续学习和改进的文化 2. 规划标准化的运维组织 3. 规划标准化的运维流程与运维工具 |
OPS02 您是否通过CI/CD实现高效的频繁可逆的小规模变更? |
1. 进行需求管理与迭代开发 2. 关联源代码版本和部署的应用版本,使用代码质量最佳实践 |
OPS03 你是否有完备的测试验证体系? |
1. 推行开发者测试 2. 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 3. 性能压测 4. 生产环境拔测 5. 混沌测试和演练 |
OPS04 自动化构建和部署流程是否完备? |
1. 有效落地持续集成 2. 采用持续部署模型 3. 基础设施即代码 4. 自动化工程运维任务 |
OPS05 是否有运维准备和变更管理体系? |
1. 进行生产准备度评审 2. 进行变更风控 3. 定义变更流程 |
OPS06 是否建立了完备的可观测体系? |
1.建立可观测体系 2.定义可观测对象 3.制定和实施可观测性指标 4. 规范化应用日志 5. 实施依赖项遥测 6. 实施分布式跟踪 7. 通过可观测性指标引入自动化措施 |
OPS07 是否进行故障分析与管理? |
1. 创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程 |
OPS08 是否有运营状态度量和持续改进机制? |
1. 使用度量指标衡量运营目标 2. 进行事故复盘和改进 3. 知识管理 |