更新时间:2024-07-16 GMT+08:00
分享

云运维中心(COC)

云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。COC产品介绍:

统一资源管理

  • 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。
  • 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。
  • 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
  • 合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。

全方位变更管理

  • 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。
  • 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
  • 风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。
  • 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。

确定性故障管理

  • 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。
  • 承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
  • 支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。
  • 故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。

韧性中心优化

  • 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
  • 使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。
  • 丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻击武器,赋能客户模拟复杂多样的业务受损场景并制定应对策略。
  • 降本增效:在不影响用户云上业务的同时,从专业的角度提供优化建议,帮助客户降本、增效和业务调优。

相关文档