更新时间：2025-01-21 GMT+08:00

基础概念

名称	名词解释
确定性运维	确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发，严谨的运维流程和制度来降低故障的概率，要挑战零故障，同时也要有技术手段对可能发生的故障，将间隔、影响范围及故障恢复时间做到可防、可控、可治，要把数字化带来的“不确定性”通过运维变成“确定性”。
IaC 基础设施即代码	基础设施即代码（IaC）是指使用代码而不是手动流程和设置来配置和支持基础设施的能力。任何应用程序环境都需要许多基础设施组件，例如操作系统、数据库连接和存储。开发人员必须定期设置、更新和维护基础设施，以开发、测试和部署应用程序。手动管理基础设施既耗时又容易出错，尤其是在大规模管理应用程序时。
CI/CD 持续集成/持续交付	持续集成是一种编码理念和一套实践，它促使开发团队频繁地实施小的代码更改并将其签入版本控制存储库。大多数现代应用程序都需要使用各种平台和工具来开发代码，因此团队需要一种一致的机制来集成和验证更改。持续集成建立了一种自动化的方式来构建、打包和测试他们的应用程序。拥有一致的集成流程可以鼓励开发人员更频繁地提交代码更改，从而实现更好的协作和代码质量。持续交付从持续集成结束的地方开始，并自动将应用程序交付到选定的环境，包括生产、开发和测试环境。持续交付是一种将代码更改推送到这些环境的自动化方式。
Telemetering 遥测	遥测是对被测量对象的参数进行远距离测量的一种技术。是将对象参数的近距离测量值传输至远距离的测量站来实现远距离测量的技术，并把测得结果传送到接收地点进行记录、显示和处理的活动。
CMDB	配置管理数据库（configuration management database）简称CMDB，是信息技术基础架构库（ITIL）用语，是组织用来储存软体硬体资产（常称为形态项目，CI）资讯的数据库。用CMDB来追踪资产（例如产品、系统、软体、设备、人员）的状态，例如这些资产在特定的时间点是否存在，以及各资产之间的关系，并通过公开的接口支持IT管理各种业务数据消费。
MTTR	MTTR（Mean Time to Repair）平均恢复时长，平均修复时间指从故障发生到验证确认故障恢复的耗时。MTTR 分为三个维度：MTTI（Mean Time To Identify）平均发现时长、MTTK（Mean Time to Know）平均诊断时长、MTTF（Mean Time to Fix）平均修复时长
变更风险控制	在变更作业过程中，建立事前检查、事中拦截和事后验证的能力，防止异常行为。
安全生产	安全生产目的是为了持续保障现网“安全、稳定、高质量”，从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理，减少或防止现网故障的发生，其中如何防止异常行为导致的事件是安全生产的重要目标。
故障快速恢复	故障快恢是以故障模式库为基础，建立应急预案，提升故障恢复效率、降低故障恢复时长，结合混沌工程演练把不确定的恢复时长做到确定的。
资源生命周期管理	指的资源的申请、创建、交付、运维以及最终的销毁释放过程。
故障演练	故障演练指通过沉淀通用的故障场景和可控成本在线上故障重放，以持续性的演练和回归方式的运营来暴露问题，不断验证和推动系统、工具、流程、人员能力的提升，从而提前发现并修复可避免的重大问题，或通过验证故障发现手段、故障修复能力来达到缩短故障修复时长的作用。
运维托管	运维托管服务是一种针对企业或组织的IT基础设施进行全面管理和维护的专业服务，旨在提高IT系统的可用性、可靠性和安全性。该服务涵盖了多个方面，包括系统监控、故障排除、系统优化、安全防护等。