产品介绍
服务概述
随着企业业务上线速度和现网稳定性之间的冲突,软件的快速上线,模糊了运维和研发的边界,被动响应的运维技术体系等诸多运维挑战,为了满足企业借鉴华为云确定性运维解决方案提高企业运维技术能力,华为云提供运维技术提升服务,帮助客户进行持续改善运维运营能力及运维平台构建。
服务内容
- 运维技术提升服务
服务规格
服务内容
适用场景
运维平台指标体系优化服务
结合企业业务场景和IT运维管理,治理设计运维指标体系数据架构、生命周期、质量规则、安全管控、应用场景,自上而下地规划整个指标体系,将各个系统的孤立数据进行分类、分层,确定核心KPI和各级支持指标;运维事前预防、事中恢复、事后改进、可用性看板等指标场景化。
客户需要进行智能运维相关的分析服务。
运维平台故障管理技术支持服务
针对观测性和故障定界定位、故障自愈、故障预防、故障预测全生命周期管理。客户故障恢复现状进行访谈调研,帮助客户全面评估故障恢复成熟度,建设故障模式库和故障恢复预案。
经验掌握在少数运维人员手中,没有形成系统性知识沉淀, 运维人员往往扮演着事后“救火”的角色,待事故发生后才去处理,导致运维效率不高。
运维平台混沌演练技术支持服务-专业版
故障模式库,演练故障场景,设计演练流程,排演练计划,建议演练报告,演练运作机制,适用中型规模运维企业
中型规模运维组织,运维应用系统50个以内
运维平台混沌演练技术支持服务-企业版
故障模式库,演练故障场景,设计演练流程,排演练计划,建议演练报告,演练运作机制, 适用大型规模运维企业
大型规模运维组织,运维应用系统50个以上
运维平台混沌演练技术支持服务-旗舰版
故障模式库,演练故障场景,设计演练流程,排演练计划,建议演练报告,演练运作机制,演练培训,适用大型规模运维企业
大型规模运维组织,运维应用系统50个以上
运维平台发布管理技术支持服务-企业版
通过对变更方案、变更流程、权限管理等方面风险数字化度量分析和评估风险影响程度,并对变更过程中人、工具、流程因素相关风险采取风险削减或规避措施,保障变更成功,将变更可能引发的问题爆炸半径控制在最小范围所采取的管理措施。该项适用运维应用系统50个以上。
大型规模运维组织,运维应用系统50个以上
运维平台发布管理技术支持服务-专业版
通过对变更方案、变更流程、权限管理等方面风险数字化度量分析和评估风险影响程度,并对变更过程中人、工具、流程因素相关风险采取风险削减或规避措施,保障变更成功,将变更可能引发的问题爆炸半径控制在最小范围所采取的管理措施。该项适用运维应用系统50个以内。
中型规模运维组织,运维应用系统50个以内
运维平台可观测性技术支持服务
通过对客户的可观测性现状调研,充分识别客户可观测性建设中存在的问题与需求,进行可观测性规划设计,协助客户全面提升可观测能力,保障系统稳定性,提高用户体验,加强系统和数据的安全,优化资源利用,赋能其他运维手段。
适用于客户运维中可观测性差,告警、故障发现慢定位慢场景。
运维平台生产准备度评审技术支持服务
以华为咨询服务方式,聚焦业务可用性,在产品公测/公测转商等重要阶段前设置生产准入度评审环节,提前识别上线后的运维问题和风险,降低生产事故。
适用于业务上线、变更后问题频发,亟待改善客户版本发布质量。
运维平台运行态风险评估技术支持服务
为提升客户业务系统的稳定性和可靠性,华为提供运行态风险评估服务。包含:先进的理论和丰富的实践经验,完善的流程,以及面向运行态的所有运行实例和全质量要素,识别现网运行风险,通过问题管理流程以及建立现网风险度量体系实时评估现网健康度,驱动现网风险有序快速闭环,持续提升现网质量。
适用于需要及早发现并识别日常业务运行中的问题或者风险
运维平台业务可用性度量技术支持服务
通过对业务可用性现状调研,发现客户业务系统可用性短板,对业务系统可用性监控进行规划,对可用性度量指标合理性记性评估,对业务系统可用性形成监控基线,通过可用性监控评审流程,帮助业务和运维上线后,业务系统各个依赖服务可用性监控完整性,保证上线后业务系统可用性被现网监控。
适用于客户业务系统可用性低,客户投诉服务差,需要亟待提升业务系统可用性的场景。
高可用技术提升服务-中型APP
业务架构咨询:通过了解客户的业务目标和需求,分析业务流程的痛点、瓶颈和改进的空间,以及业务架构中不同系统和模块之间的数据流,识别潜在风险。
业务组件咨询:协助客户梳理系统中各组件信息和部署方式,提前识别组件部署风险,提供高可用策略与方案。
组件依赖咨询:协助客户梳理系统中各组件间依赖关系和分析失效的组件对依赖组件的各种潜在故障模式及其对系统功能的影响,提供高可用策略与方案。
云上部署咨询:从流量接入层,应用层,数据层,梳理客户业务各服务/微服务集群的物理部署关系,收集云资源可靠性和可用性指标,结合华为云高可用架构参考,分析系统的可靠性,可用性
中型规模运维组织,运维应用系统50个以内
高可用技术提升服务-大型APP
大型规模运维组织,运维应用系统50个以上
故障管理技术提升服务
通过华为专业的技术团队和丰富的实践经验,对客户故障恢复现状进行访谈调研,对其故障恢复成熟度的能力进行全面评估。
基于华为云平台以及云上业务运维的最佳实践,帮助客户制定故障恢复流程规范设计方案,实现故障发现时长、故障定界时长、故障恢复时长都是确定性的,提升整体故障恢复能力。
协助客户进行X应用X场景故障恢复能力建设试点,制定故障模式库、和快速恢复预案,通过演练进行验证故障恢复全流程的设计方案。
经验掌握在少数运维人员手中,没有形成系统性知识沉淀, 运维人员往往扮演着事后“救火”的角色,待事故发生后才去处理,导致运维效率不高。
中型企业混沌工程技术提升服务
客户能力现状调研
客户混沌工程能力诊断
与客户进行混沌工程目标对齐
客户场景化解决方案输出
混沌工程方案联合落地
协助客户混沌工程演练
中型规模运维组织,运维应用系统50个以内
大型企业混沌工程技术提升服务
大型规模运维组织,运维应用系统50个以上
变更风控技术提升服务-小规模
对标业界标准、领先理论、最佳实践等对企业变更流程、变更组织、变更工具等全方面风控能力评估,给予风控能力进阶方案。同时根据调研给出变更组织规划、流程规范、工具架构等设计方案。
小型规模运维组织,运维应用系统20个以内
变更风控技术提升服务-中规模
中型规模运维组织,运维应用系统20个以上,50个以内。
变更风控技术提升服务-大规模
大型规模运维组织,运维应用系统50个以上
运维平台应用韧性提升评估与诊断
基于韧性高可用方法模型以及SLO/RPO/RTO目标,面向应用设计态、运维态和治理态的调研、分析、诊断评估,提供韧性评估报告、韧性恢复方案设计,根据方案提供接入层、应用层、数据库和基础设施层高阶方案和未来的蓝图规划。
(应用个数1个:应用规模<=400VCPU,微服务个数<=20)
诊断评估和设计,应用个数1个:应用规模<=400 VCPU,微服务个数<=20
运维平台应用韧性提升评估与诊断-增购包
超过基础包的部分,按叠加增购包销售,叠加包个数按应用个数叠加。
(应用个数1个:应用规模<=150 VCPU,微服务个数<=7)
叠加包个数按应用个数叠加,应用个数1个:应用规模<=150 VCPU,微服务个数<=7
运维平台应用韧性提升规划与设计
基于运维平台应用韧性提升评估与诊断,提供详细的应用韧性治理态容灾方案;从接入层、应用层、数据层和基础设施层满足韧性高可用选型的方案设计和数据一致性设计,提供应用韧性的运维态韧性评估、优化建议、故障巡检、切换编排、混沌工程和容灾演练等方案设计。
(应用个数1个:应用规模<=400 VCPU,微服务个数<=20)
方案详细设计,应用个数1个:应用规模<=400 VCPU,微服务个数<=20
运维平台应用韧性提升规划与设计-增购包
超过基础包的部分,按叠加增量包销售,叠加包个数按应用个数叠加。
(应用个数1个:应用规模<=150 VCPU,微服务个数<=7)
按应用个数叠加,应用个数1个:应用规模<=150 VCPU,微服务个数<=7
运维效能提升诊断-专业版
针对客户运维现状进行访谈调研,融合多领域标准、模型和行业SRE实践,有针对性的进行诊断,提出优化策略,输出调研报告和诊断报告。主要针对客户IT部门人员20~50人以内,相关业务部门10个以内。
客户运维的复杂度和不确定性持续增高,运维能力不能满足企业数字化转型越来越高的可用性要求,需要基础的诊断服务。
运维效能提升诊断-企业版
针对客户运维现状调研,进行成熟度评估,融合多领域标准、模型和行业SRE实践进行诊断,提出优化策略,输出调研报告、成熟度评估报告和诊断报告。主要针对客户IT部门人员超过50人,相关业务部门10个以内。
运维效能提升评估与规划-专业版
针对客户运维现状进行访谈调研,为客户全面评估运维成熟度,差距分析改进建议;结合诊断分析结果输出整体规划与演进路标,为客户量身定制确定性运维体系。主要针对客户IT部门人员20~50人以内,相关业务部门10个以内。
客户运维体系无严格定义的流程角色和职责,依赖个人经验,靠事件驱动被动式运维,建设了部分烟囱式工具,整体效率不高。
运维效能提升评估与规划-企业版
针对客户运维现状进行访谈调研,为客户全面评估运维成熟度,差距分析改进建议;结合诊断分析结果输出整体规划与演进路标,为客户量身定制确定性运维体系。主要针对客户IT部门人员超过50人,相关业务部门10个以内。
运维效能提升流程设计-专业版
详细设计适合客户业务需要的七套运维流程和规范,包含(变更管理、监控告警含Oncall管理、事件管理含WarRoom、回溯改进管理、问题管理、容量管理、交付转维)。主要针对客户IT部门人员20~50人以内;相关业务部门10个以内
帮助企业设计7套标准化运维流程和规范。
运维效能提升流程设计-企业版
详细设计适合客户业务需要的七套运维流程和规范,包含(变更管理、监控告警含Oncall管理、事件管理含WarRoom、回溯改进管理、问题管理、容量管理、交付转维)。主要针对客户IT部门人员超过50人,相关业务部门10个以内。
运维效能提升组织架构设计-专业版
结合《现状调研与诊断分析报告》和《确定性运维整体规划与演进路标》帮助客户设计适合企业的组织架构和岗位职责,助力确定性运维能力的落地。主要针对客户IT部门人员20~50人以内,相关业务部门10个以内。
结合基础包输出的内容及客户诉求。主要是帮助企业设计组织架构和岗位职责,优化组织和文化。
运维效能提升组织架构设计-企业版
结合《现状调研与诊断分析报告》和《确定性运维整体规划与演进路标》帮助客户设计适合企业的组织架构和岗位职责,助力确定性运维能力的落地。主要针对客户IT部门人员超过50人,相关业务部门10个以内。
前提条件
- 客户已购买华为云运维平台相关的云服务平台及产品,或欲接入华为云运维平台相关云服务平台和产品。
- 服务过程需获取客户系统相关数据的处理权限。
- 客户需指定团队负责与华为云服务团队完成运维相关的服务。
- 客户应在项目开始时提供必要的办公条件包括办公座位、会议室、互联网设施、效果良好的电话或视频会议设施、投影仪、白板等。
- 本项目所有工作记录和文档以中文为工作语言,根据甲方需求提供。提交的电子文档为Microsoft Word、Microsoft PowerPoint、Microsoft Excel 。
- 双方商定确认方案内容,并完成合同签订。
- 客户应在华为承接服务后,提供必要的调研时间、相关资料协助配合华为开展咨询调研服务。
服务范围
服务流程
- 一次性服务流程(运维技术提升服务)
服务阶段
内容说明
需求调研
通过与客户充分沟通需求。
方案设计
通过与客户充分沟通,明确当前存在的问题,并给出对应的解决方案。
方案输出
根据项目目标,输出《XX客户企业 方案建议书》,通过客户评审与验收。
实施
根据项目服务内容,按计划进行实施建设。
总结
总结项目实施成果,分析建设中存在问题,形成总结汇报。
服务交付件
- 运维技术提升服务
服务名称
交付件
验收报告
运维平台指标体系优化服务
《XXX运维指标体系治理解决方案》
《xx项目运维平台指标体系优化服务验收报告》
运维平台故障管理技术支持服务
《故障恢复成熟度评估报告》
《故障恢复流程规范设计方案》
《X应用X场景故障恢复能力建设试点》
《xx项目运维平台故障管理技术支持服务验收报告》
运维平台混沌演练技术支持服务-专业版
《混沌工程能力现状调研表》
《混沌工程能力诊断报告》
《混沌工程能力建设解决方案》
《xx项目运维平台混沌演练技术支持服务验收报告》
运维平台混沌演练技术支持服务-企业版
《混沌工程能力现状调研表》
《混沌工程能力诊断报告》
《混沌工程能力建设解决方案》
《xx项目运维平台混沌演练技术支持服务验收报告》
运维平台混沌演练技术支持服务-旗舰版
《混沌工程能力现状调研表》
《混沌工程能力诊断报告》
《混沌工程能力建设解决方案》
《xx项目运维平台混沌演练技术支持服务验收报告》
运维平台发布管理技术支持服务-专业版
《XXX变更风控规划设计》
《XXX变更风控工具设计建议》
《XXX变更风控流程规范》
《XXX变更风控技术规范》
《xx项目运维平台发布管理技术支持服务验收报告》
运维平台发布管理技术支持服务-企业版
《XXX变更风控规划设计》
《XXX变更风控工具设计建议》
《XXX变更风控流程规范》
《XXX变更风控技术规范》
《xx项目运维平台发布管理技术支持服务验收报告》
运维平台可观测性技术支持服务
《 XXX(客户名)可观测性现状调研及能力建设方案报告》《 XXX(客户名)可观测性试点及测试总结报告》
《xx项目运维平台可观测性技术支持服务验收报告》
运维平台生产准备度评审技术支持服务
《PRR实施规范指导书》
《PRR运维流程指导书》
《PRR基线设计Checklist》
《xx项目运维平台生产准备度评审技术支持服务验收报告》
运维平台运行态风险评估技术支持服务
《运行态风险评估能力诊断报告》
《运行态风险评估解决方案》
《运行态风险评估流程规范》
《运行态风险评估基线》
《xx项目运维平台运行态风险评估技术支持服务验收报告》
运维平台业务可用性度量技术支持服务
《SLO/SLI可用性评估能力诊断报告》
《SLO/SLI可用性评估方案与标准管理规范》
《SLO/SLI可用性监控评审基线》
《SLO/SLI可用性评审运作指导》
《xx项目运维平台业务可用性度量技术支持服务验收报告》
高可用技术提升服务-中型APP
《应用系统云上部署可用性咨询计划书》
《应用系统云上部署可用性咨询调研评估报告》
《应用系统云上部署可用性优化方案》
《XXX(客户名)高可用技术提升服务验收报告》
高可用技术提升服务-大型APP
故障管理技术提升服务
《故障恢复成熟度评估报告》
《故障恢复流程规范设计方案》
《X应用X场景故障恢复能力建设试点》
《故障管理技术提升验收报告》
中型企业混沌工程技术提升服务
《混沌工程能力现状调研表》
《混沌工程能力诊断报告》
《混沌工程能力建设解决方案》
《xxx混沌工程能力验收报告》
大型企业混沌工程技术提升服务
变更风控技术提升服务-小规模
《XXX变更风控规划设计》
《XXX变更风控工具设计建议》
《XXX变更风控流程规范》
《XXX变更风控技术规范》
《xxx变更风控服务验收报告》
变更风控技术提升服务-中规模
变更风控技术提升服务-大规模
运维平台应用韧性提升评估与诊断
《运维平台应用韧性提升评估与诊断报告》
《运维平台应用韧性提升评估与诊断服务验收报告》
运维平台应用韧性提升规划与设计
《应用韧性高可用详细设计方案》
《运维平台应用韧性提升规划与设计服务验收报告》
运维效能提升诊断-专业版
《现状调研与诊断分析报告》
《运维效能提升诊断服务验收报告》
运维效能提升诊断-企业版
运维效能提升评估与规划-专业版
《现状调研与诊断分析报告》
《确定性运维整体规划与演进路标》
《运维效能提升评估与规划服务验收报告》
运维效能提升评估与规划-企业版
运维效能提升流程设计-专业版
《现状调研与诊断分析报告》
《确定性运维整体规划与演进路标》
《运维效能提升流程设计方案》
《运维效能提升流程设计服务验收报告》
运维效能提升流程设计-企业版
运维效能提升组织架构设计-专业版
《现状调研与诊断分析报告》
《确定性运维整体规划与演进路标》
《运维效能提升组织架构设计方案》
《运维效能提升组织架构设计服务验收报告》
运维效能提升组织架构设计-企业版
责任矩阵
- 共同责任
- 双方商定并确认运维技术提升服务服务的具体的业务需求范围及目标。
- 双方商定并确认运维技术提升服务服务的项目管理计划。
- 双方商定并确认运维技术提升服务服务的方案内容并评审。
- 华为责任
- 华为须依照责任矩阵完成需求调研、方案设计和交付实施。
- 服务前,按照客户所选服务项,制定服务计划和报价清单供客户审核确认。
- 服务期间,依确认后的服务计划进行实施,编写交付件。
- 服务结束后,根据所选服务项,出具交付件清单。
- 华为云需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会客户,直至项目最终验收完成。
- 华为云得到客户授权后,授权数据仅限用于运维技术提升服务服务中涉及的服务内容,不得超出限定范围。
- 客户责任
- 数据备份保存。
- 客户业务系统验证。
- 基础设施层需由客户进行运维,包括计算、网络、存储、OBS桶、安全服务等。
- 客户需指派一位项目负责人负责双方之间协调及管理、审核、验收华为云提供的服务。
- 客户必须提供业务系统相关的信息(包括但不限于应用架构、部署架构、资源数量和性能)。
- 责任分工矩阵表