什么是云运维中心
云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。
统一资源管理
- 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。
- 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。
- 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
- 合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。
全方位变更管理
- 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。
- 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
- 风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。
- 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。
确定性故障管理
- 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。
- 承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
- 支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。
- 故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。
韧性中心优化
- 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
- 使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。
- 丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻击武器,赋能客户模拟复杂多样的业务受损场景并制定应对策略。
- 提升应用高可用能力:PRR(Production Readiness Review 生产就绪程度评审),承载华为云SRE对云应用上线评审的最佳实践,提供在线评审电子流和评审项,提升应用高可用能力。
访问方式
云服务平台提供了Web化的服务管理平台,即管理控制台和基于HTTPS请求的API(Application Programming Interface)管理方式。
- API方式
如果用户需要将云服务平台上的云运维中心集成到第三方系统,用于二次开发,请使用API方式访问云运维中心,具体操作请参见《云运维中心API参考》。
- 控制台方式
如果用户已注册,可直接登录管理控制台,从主页选择“云运维中心”。如果未注册,请参见注册华为账号并开通华为云。