产品功能
本章节介绍了COC服务支持的主要功能。
总览
COC全局总览页面,包含运维概率、资源看板、资源监控、安全概览、快捷配置中心、运维BI等多个板块。用户可以在总览页面便捷查看、处理工作项,降低运维复杂度,改善运维体验。更多信息请参考总览。
资源管理
传统ITIL(信息技术基础架构库)流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。通过COC的资源管理功能可以将华为云、友商云核心资源和IDC离线资源统一管理,为变更管理、批量运维等功能提供准确、及时、一致的资源配置数据。COC通过以下机制实现资源的统一管理:
- 资源发现与识别:云运维中心能够自动发现和识别华为云、友商云和IDC离线资源,并将其纳入统一管理范围。
- 资源监控与管理:通过统一的监控界面,运维人员可以实时监控资源的使用情况,并进行动态调整。
- 数据同步与一致性:云运维中心支持数据同步功能,确保各运维服务之间的数据一致性和准确性。
更多信息请参考资源管理概述。
应用管理
COC提供以应用为中心的资源管理视图。提供应用和资源关联关系的建模能力。按照“应用 > 区域 > 分组 > 资源模型”进行管理,支持按照标签查询资源列表,并提供UniAgent安装能力。您可以通过COC的应用管理功能对资源进行分组管理,管理云服务对象与应用之间的关系,管理范围包含华为云、友商云(当前支持阿里云、AWS,Azure)核心资源和IDC离线资源,为混沌演练、变更管控、账号管理等功能提供统一可靠的资源分组信息。
更多信息请参考应用管理概述。
资源批量处理
COC支持资源批量操作能力,可对弹性云服务器(ECS)、云数据库(RDS)、Flexus应用服务器L实例(FlexusL)、裸金属服务器(BMS)等多种类型的资源进行集中化批量管理。其支持的具体操作场景丰富多样,涵盖批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等,满足用户在不同运维阶段对各类资源的操作需求。更多信息请参考资源批量处理概述。
脚本管理
云运维中心脚本管理功能,是助力用户实现运维自动化的核心工具,为复杂或重复性高的运维任务提供了高效、精准的处理方案。借助脚本执行,用户无需再进行大量繁琐的手动操作,无需逐台设备配置、反复执行的任务,可通过脚本一次性完成,不仅大幅缩短了任务处理时间,还能有效避免人工操作可能出现的疏漏,从根本上提升运维工作的效率与准确性。提供用户自定义脚本的创建、修改、删除以及在目标虚拟机上执行自定义脚本、公共脚本的能力。更多信息请参考脚本管理概述。
作业管理
作业管理是面向操作自动化的核心工具,通过将原子动作(如重启实例、执行脚本等)进行结构化编排,形成可复用、可管理的标准化操作集合(即 “作业”)。其核心能力包括作业全生命周期管理与跨实例批量执行,旨在帮助用户高效完成重复性操作、降低人工失误风险,并实现操作流程的标准化与版本化管理。
更多信息请参考作业管理概述。
定时运维
定时运维是云运维中心中用于实现运维任务自动化调度的重要功能模块,页面会集中展示所有定时任务的详细信息(如任务名称、类型、执行时间、状态等)以及完整的执行记录(包括执行时间、结果、日志等),为用户提供清晰透明的任务管控视角。用户不仅能便捷地创建新的定时任务,还能对已创建的任务进行灵活管理,如修改、暂停、启用、删除等,全方位满足定时运维的操作需求。
更多信息请参考定时运维概述。
账号管理
账号管理为用户提供针对华为云ECS、RDS、GaussDB、中间件等资源实例的人机账号密码集中管理能力。多种账号进行统一收口,避免多资源账号密码易遗忘、多人知晓密码信息易泄漏等风险,用户可通过账号管理来获取主机密码,在安全管控下支持无需输入密码可登录linux主机执行命令。
更多信息请参考账号管理概述。
参数中心
参数中心旨在通过集中化、规范化的管理模式,为用户提供安全可靠的参数存储与全生命周期管控能力,解决数据分散、安全隐患、引用繁琐等痛点。支持Region级参数全生命周期管理,持续看护参数正确性和一致性。支持作业编排等运维场景快速引用。
更多信息请参考参数中心概述。
OS版本变更
OS版本变更是云运维中心中专注于主机操作系统升级管理的功能模块,为主机提供了便捷、高效的操作系统版本变更能力。通过该功能,用户可以轻松创建OS版本变更任务,实现对多台主机的批量升级操作,无需逐台手动处理,大幅提升操作系统升级的效率。
更多信息请参考OS版本变更概述。
故障管理
COC故障管理为用户提供故障快速定界定位和恢复的能力,支持多源告警接入,通过COC将告警聚合,降噪转化为事件/汇聚告警,并通过应用拓扑诊断、WarRoom等方式实现故障快速定界,使用在线化的恢复预案进行快速恢复/自动恢复,缩短MTTR,最后进行复盘改进,持续积累故障管理运维知识库,提升业务抗风险能力。
|
功能模块 |
功能概述 |
操作指南 |
|---|---|---|
|
告警管理 |
告警管理功能提供告警数据的收集、汇聚降噪和流转处理,以及告警规则的配置管理功能。 |
|
|
事件管理 |
事件管理是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 |
|
|
WarRoom |
WarRoom是在发生重大紧急或群体故障,可召集故障分析成员、应用SRE等各方面专家资源组织恢复,提升协同交流、诊断定界和处理效率。 快速感知事件的发生并及时响应,缩短MTTR(故障恢复时间)。 |
|
|
改进管理 |
改进管理指在处理事件、WarRoom或进行演练过程发现产品、运维或管理方面需要改进完善的地方,通过改进单的方式跟踪闭环。 |
|
|
问题管理 |
问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。 |
|
|
流转规则 |
流转规则将所有接收的集成原始告警进行抑制、降噪、去重、路由分派操作,支持多监控源纵向抑制、横向收敛,进行多维降噪;支持每个流转规则配置事件时默认分配对象和通知策略,而实现更准确的通知。 |
|
|
集成管理 |
集成管理旨在为用户提供简单、快速的方式,对接现有及第三方监控系统 ,如华为云CES、AOM及其他监控工具,均可通过该功能完成集成。将同一业务下分散在各监控系统中的告警信息进行统一收口,实现集中化管理,避免告警数据散落在不同平台导致的监控盲区或管理繁琐问题。 |
变更管理
变更管理作为保障运维作业安全有序开展的核心模块,其核心功能在于构建覆盖运维作业全生命周期的安全生产能力。从变更需求的初步提出,到方案设计、实施执行,再到事后复盘与效果评估,该模块通过系统化的流程设计与多层级的风险管控机制,精准识别潜在风险点并提前制定应对策略,从而有效降低变更操作过程中的各类风险,为运维体系的稳定运转提供坚实保障。该模块主要承载变更流程管理的核心业务,整合了变更日历、变更中心、变更配置、变更管控等关键能力,各能力模块协同联动,形成一套从计划到执行、从配置到监控的闭环变更管理体系。
更多信息请参考变更管理概述。
混沌演练
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
更多信息请参考混沌演练概述。
待办中心
待办中心用于记录和跟踪日常待办事务,并提供提醒功能。
在COC待办中心,您可以创建待办任务给指定人员处理,设置截止时间,填写待办任务的推荐方案,创建待办后可通过短信、邮件等方式通知责任人。
更多信息请参考待办中心概述。
人员管理
人员管理为云运维中心提供了统一的人员数据管理。您可以在人员管理页面管理不同登录来源的用户,包括IAM用户、IAM联邦用户以及IAM身份中心用户。人员管理页面的数据作为云运维中心的用户基础数据,供创建待办、定时运维、通知管理、事件中心等多个功能模块使用。
更多信息请参考人员管理概述。
排班管理
排班管理为云运维中心提供了统一的、多维度、多形式、可自定义的人员管理模式,被广泛应用于业务审批、工单流转等需要涉及责任人的场景。您可以在排班管理对排班场景进行管理,并将“人员管理”中的人员添加到排班中完成排班的设置。排班管理为云运维中心提供了统一的、多维度、多形式、可自定义的人员管理模式。您可以在排班管理页面创建排班场景、排班角色,并将“人员管理”中的人员添加到“排班场景”、“排班角色”中完成排班的设置。
- 在需要设置排班人员、获取排班人员时,您直接前往排班管理页面进行配置、查询。
- 已创建的排班可直接在流转规则、事件中心、自动化运维、通知管理、变更管理等运维服务中设置人员类参数时使用。
更多信息请参考排班管理概述。
通知管理
通知管理主要为用户提供变更、事件、问题、告警等消息通知模板,支持多样化的通知方式,满足用户在不同业务场景和流程阶段的通知诉求。同时支持按需订阅通知,防止信息冗余,无法获取重要信息。当产生事件单、问题单、告警单或有变更单时,通知规则会根据事件/问题/告警/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的方式,进行消息通知,实现了自动通知的功能。通知类型同样分为事件通知、问题通知、变更通知和告警通知。
更多信息请参考通知管理。
移动应用管理
移动应用管理用于管理事件启动WarRoom时,创建第三方移动应用的WarRoom作战室必要的配置信息,用户可通过移动应用管理页面管理第三方移动应用的配置信息。更多信息请参考移动应用管理。
SLA管理
SLA(服务等级协议,Service Level Agreement)在业界常用于衡量服务质量,它定义了服务的质量标准、交付方式和可接受的性能水平。云运维中心COC的SLA管理功能为客户提供了工单时效管理能力,当工单触发某SLA规则时,COC会记录工单SLA触发详情,并通知客户及时跟进和处理。
更多信息请参考SLA管理。
SLO管理
SLO(服务级别目标,Service Level Objective)作为业界广泛认可的核心性能指标,是衡量服务/应用质量水平的关键量化标准,其核心价值在于为业务方与技术团队提供统一、可衡量的服务质量评判基准,确保服务能力与业务需求相匹配。
更多信息请参考SLO管理。
报告订阅
报告订阅功能主要面向运维管理人员统计运维数据、汇报业务情况等场景,提供自动化、周期性的运维数据统计报告。该功能解决了传统手工收集、整理运维数据效率低下、统计分析人力成本高的问题。
报告的数据来源为云运维中心COC的运维BI大屏,您创建订阅报告时,配置发送频率、报告内容、接收人等订阅参数,即可定期在接收人邮箱中收到订阅的报告。您也可以在报告订阅页面查看历史报告,并下载报告。
更多信息请参考订阅报告。