文档首页/ 云运维中心 COC/ 产品介绍/ 什么是云运维中心
更新时间:2024-10-29 GMT+08:00

什么是云运维中心

云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。

图1 COC产品介绍

统一资源管理

  • 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。
  • 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。
  • 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
  • 合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。

全方位变更管理

  • 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。
  • 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
  • 风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。
  • 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。

确定性故障管理

  • 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。
  • 承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
  • 支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。
  • 故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。

韧性中心优化

  • 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
  • 使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。
  • 丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻击武器,赋能客户模拟复杂多样的业务受损场景并制定应对策略。
  • 提升应用高可用能力:PRR(Production Readiness Review 生产就绪程度评审),承载华为云SRE对云应用上线评审的最佳实践,提供在线评审电子流和评审项,提升应用高可用能力。

访问方式

云服务平台提供了Web化的服务管理平台,即管理控制台和基于HTTPS请求的API(Application Programming Interface)管理方式。

  • API方式

    如果用户需要将云服务平台上的云运维中心集成到第三方系统,用于二次开发,请使用API方式访问云运维中心,具体操作请参见。

  • 控制台方式

    其他相关操作,请使用管理控制台方式访问云运维中心。

    如果用户已注册,可直接登录管理控制台,从主页选择“云运维中心”。如果未注册,请参见注册华为账号并开通华为云