产品介绍
服务概述
随着客户基础设施多云化,在日常运维存在协调难,管理难,效率低的问题,为了满足客户应用上云后基础环境和自研应用的托管华为云提供统一代维、协维、托管等应用代维AMS服务,由专家技术团队支撑客户上云后遇到的各种问题,保障客户业务稳定,及时发现故障、定位定界、快速恢复,提供远程或现场的运维服务,为客户降本增效。
服务内容
- 应用代维AMS
服务规格 |
服务内容 |
适用场景 |
---|---|---|
运维平台混沌工程演练服务 |
帮助用户在线验证系统可能存在的潜在风险,通过故障模式识别和建设、演练风险分析及控制、制定应急预案、故障注入、故障恢复、复盘等全流程的演练实战服务,帮助用户构建混沌工程的系统能力:构建故障模式库和武器库建设,验证应急预案的有效性。 |
客户需提升其混沌工程的演练能力,协助客户完成演练。 |
运维平台故障管理代维服务 |
基于华为云专家经验以及云上业务运维的最佳实践,通过对客户有痛点的核心应用,进行故障树梳理和相应应急预案的开发,并通过混沌演练验证,帮助客户提高故障快速恢复效率,为业务稳定运行保驾护航。 |
客户业务故障事件频发,故障管理流程不规范。 |
运维平台发布管理优化实施服务 |
围绕单一变更场景,如软件变更、配置变更等,分析流程风险点,梳理相应标准化SOP,给出优化意见。 |
|
运维平台发布管理驻场支持服务-基础包 |
负责变更评审管理、变更回溯、变更知识总结、重大变更支持、变更项目管理,每套基础包包含100个以内的应用。 |
|
运维平台发布管理驻场支持服务-增量包 |
服务内容与基础包服务相同,主要用于超出基础包的应用,每个增量包包含10个以内的应用。 |
|
运维平台应用运维托管(5X8) |
服务周期内为客户应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供5x8监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。 |
适用于业务可用性要求一般的场景。 |
运维平台应用运维托管(7X24) |
服务周期内为客户应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供7x24监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。 |
适用于业务可用性要求高的场景。 |
运维平台应用托管增量服务(5X8) |
为客户新增或扩容的应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供5x8监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。 |
5*8增量服务包。 |
运维平台应用托管增量服务(7X24) |
为客户新增或扩容的应用提供远程应用托管服务,包括在客户日志、指标、告警接入的前提下,为客户应用提供7x24监控,针对客户生产环境出现的告警按照预设的预案进行响应处理,跟踪生产故障,进行全生命周期管理。 |
7*24增量服务包。 |
运维平台应用托管实施服务 |
将客户目标范围内的资源、应用纳管入运维平台,纳管范围不超过100实例,实施范围包括资源纳管、账号托管、日志采集、监控配置等。 |
用于首次将客户业务统一接入运维平台进行托管的场景。 |
运维平台应用托管实施增量服务 |
对于客户新增部署的服务或者扩容的资源进行纳管接入,满足运维需要。 |
用于增量客户业务接入运维平台的场景。 |
运维平台生产准备度评审治理服务 |
结合运维工具,帮客户开展生产准备度评审活动,指定对应的评审流程,制定对应业务PRR评审相关评审子项,内容描述以及评判标准。自动化实现在线评审相关的开发工作,对实际业务进行PRR评审检测,给出评审结果。 |
适用于需要华为专家为客户进行实际生产准备度评审服务,进行实际演练操作。 |
运维平台运行态风险评估治理服务 |
结合运维工具,定制客户运行态风险评估的标准流程,定制风险评估子项相关信息及检测标准。自动化实现部分评估的相关工作,对实际的业务进行风险评估并给出评估结果。 |
适用于需要华为专家为客户进行实际运行态风险评估服务的演练、操作等。 |
运维平台业务可用性度量治理服务 |
结合客户实际业务和运维工具,制定客户产品的SLO,开发对应的SLI的指标项以及对应的基线数据,监控业务SLO/SLI指标情况。 |
适用于需要华为专家为客户进行实际可用性度量服务的演练、操作等。 |
运维平台开发支持服务-高级专家 |
为客户提供基础的开发支持服务:提供 SDK/API的使用支持及Demo展示;提供开发环境搭建指导及应用开发过程指导。在客户使用平台开发AI应用过程中,辅助客户进行 数据准备、模型选择/调优,推理加速、知识工程、应用编排、应用部署、应用集成等支持工作,帮助客户快速提升智能化应用开发能力,协助解决开发过程中遇到的各类问题。 |
客户运营调优能力不足,需购买华为云专业服务来支撑其业务发展。 |
运维平台开发支持服务-资深顾问 |
为客户提供应用迁移改造过程的开发支持,针对运维平台之上的应用或者数据做迁移适配改造支持,包括不限于AI应用及配套模型等迁移性评估和方案设计,AI应用及模型推理脚本改造调试,单机/分布式的性能优化,大模型对应微调/训练脚本改造及性能调试等的开发支持。 |
|
运维平台开发支持服务-高级咨询专家 |
为客户提供在运维平台上进行通用组件开发时的开发支持服务,包括以下场景:
|
|
运维平台开发支持服务-资深咨询专家 |
为客户在应用开发过程中提供专业的开发支持服务:
|
|
成本管理可视 |
标签体系设计、成本预测、成本监控对账、成本分配分析。 |
|
成本管理优化 |
成本优化建议、云资源周期管控。 |
|
变更风控驻场支持服务-基础包 |
负责变更评审管理、变更回溯、变更知识总结、重大变更支持、变更项目管理。 |
20个应用/年。 |
变更风控驻场支持服务-增量包 |
20个应用/月。 |
|
变更风控优化提升服务 |
围绕单一变更场景,如软件变更、配置变更等,分析流程风险点,梳理相应标准化SOP,给出优化意见。 |
每个变更场景。 |
变更风控自动化能力构建服务 |
围绕“操作半径、作业影响”,协助客户梳理高危命令基线、Action编排规则等,完成变更活动工具化及CICD流水线建设与实施。 |
每人每月。 |
混沌工程演练服务基础版 |
混沌工程演练服务是帮助用户在线验证系统可能存在的潜在风险,通过故障模式识别和建设、演练风险分析及控制、制定应急预案、故障注入、故障恢复、复盘等全流程的演练实战服务,帮助用户构建混沌工程的系统能力:构建故障模式库和武器库建设,验证应急预案的有效性,提升运维团队的故障快速恢复能力,持续实践并优化应急体系、组织应急能力、并提升系统的韧性和可靠性。 |
客户需提升其混沌工程的演练能力,协助客户完成演练。 |
混沌工程演练服务增量包 |
服务内容同混沌工程演练服务基础版,与基础包配合购买增加服务范围,适用于演练场景数超过5个的情况,每增加一个演练场景按需购买增量包。 |
客户演练场景数超出基础版演练数量限制。 |
前提条件
- 客户已购买华为云运维平台相关的云服务平台及产品,或欲接入华为云运维平台相关云服务平台和产品。
- 服务过程需获取客户系统相关数据的处理权限。
- 客户需指定团队负责与华为云服务团队完成运维相关的服务。
- 双方商定确认方案内容,并完成合同签订。
服务范围
服务流程
- 一次性服务流程(部分应用代维AMS)
服务阶段
内容说明
需求调研
通过与客户充分沟通需求。
方案设计
通过与客户充分沟通,明确当前存在的问题,并给出对应的解决方案。
方案输出
根据项目目标,输出《XX客户企业 方案建议书》,通过客户评审与验收。
实施
根据项目服务内容,按计划进行实施建设。
总结
总结项目实施成果,分析建设中存在问题,形成总结汇报。
- 包周期服务流程(运维平台应用运维托管、应用托管增量服务(5X8)(7X24))
服务阶段
工作内容
内容说明
服务准备阶段
需求沟通
华为方与客户方对运维人员服务产品类别、服务时长、工程师等级等具体需求进行充分沟通。
需求确认
华为方收集客户需求,进行资源评估,确认客户方运维服务需求内容。
合同签署
华为方提供运维服务报价,待双方就合同内容达成一致后,完成合同签署。
服务实施阶段
人员确认
合同签署完毕后,华为方提供符合合同要求的运维工程师人选,同时与客户方对人选进行沟通确认。
人员入场
运维工程师人选确认后,根据客户要求入场。(远程运维不涉及)。
人员培训
运维工程师入场后,根据客户要求进行行业规范等培训。(远程运维不涉及)。
日常运维
运维工程师提供合同内规定的日常运维服务,按需输出运维周报、月报、交付质量考核表等文档。
服务收尾阶段
退场续租沟通
合同规定的服务时间到期前一个月对客户方进行提醒,双方对是否续租进行沟通。
人员离场
运维工程师完成资料、账号等交接工作,按时离场,服务流程结束。
服务交付件
- 应用代维AMS
服务名称
交付件
验收报告
运维平台混沌工程演练服务
《演练风险分析报告》
《演练应急预案》
《演练runbook》
《演练方案》
《演练总结报告》
《演练验收报告》
《xx项目运维平台混沌工程演练服务验收报告》
运维平台故障管理代维服务
《XXX应用故障树》
《XXX应用故障模式库》
《XXX应用故障模式库演练报告》
《xx项目运维平台故障管理代维服务验收报告》
运维平台发布管理优化实施服务
《XXX场景变更标准SOP设计》
《xx项目运维平台发布管理优化实施服务验收报告》
运维平台发布管理驻场支持服务-基础包
《XXX变更风控管理报告》
《变更回溯报告》
《变更知识总结》
《变更评审模板》
《xx项目运维平台发布管理驻场支持服务验收报告》
运维平台发布管理驻场支持服务-增量包
《XXX变更风控管理报告》
《变更回溯报告》
《变更知识总结》
《变更评审模板》
《xx项目运维平台发布管理驻场支持服务验收报告》
运维平台应用运维托管(5X8)
《XXX应用运维日报》
《XXX应用运维周报》
《XXX应用运维月报》
不涉及
运维平台应用运维托管(7X24)
《XXX应用运维周报》
《XXX应用运维月报》
不涉及
运维平台应用托管增量服务(5X8)
《XXX应用运维日报》
《XXX应用运维周报》
《XXX应用运维月报》
不涉及
运维平台应用托管增量服务(7X24)
《XXX应用运维周报》
《XXX应用运维月报》
不涉及
运维平台应用托管实施服务
《XXX应用接入实施方案》
《XXX应用接入实施报告》
《xx项目运维平台应用托管实施服务验收报告》
运维平台应用托管实施增量服务
《XXX应用接入实施方案》
《XXX应用接入实施报告》
《xx项目运维平台应用托管实施服务验收报告》
运维平台生产准备度评审治理服务
《XXX业务生产准备度实施方案》
《XXX业务生产准备度实施报告》
《xx项目运维平台生产准备度评审治理服务验收报告》
运维平台运行态风险评估治理服务
《XXX业务运行态风险评估实施方案》
《XXX业务运行态风险评估实施报告》
《xx项目运维平台运行态风险评估治理服务验收报告》
运维平台业务可用性度量治理服务
《XXX业务SLO/SLI实施方案》
《XXX业务SLO/SLI实施报告》
《xx项目运维平台业务可用性度量治理服务验收报告》
运维平台 应用开发支持服务-高级专家
《运维平台应用开发支持报告》
《xx项目运维平台应用开发支持验收报告》
运维平台 应用开发支持服务-资深顾问
《运维平台应用开发支持报告》
《xx项目运维平台应用开发支持验收报告》
运维平台 应用开发支持服务-高级咨询专家
《运维平台应用开发支持报告》
《xx项目运维平台应用开发支持验收报告》
运维平台 应用开发支持服务-资深咨询专家
《运维平台应用开发支持报告》
《xx项目运维平台应用开发支持验收报告》
成本管理可视
《标签体系设计》
《成本预测》
《成本监控对账》
《成本分配分析》
《XX项目确定性运维成本管理服务验收报告》
成本管理优化
《成本优化建议》
《云资源周期管控》
变更风控驻场支持服务-基础包
《XXX变更风控管理报告》
《变更回溯报告》
《变更知识总结》
《变更评审模板》
《xxx变更风控服务验收报告》
变更风控驻场支持服务-增量包
变更风控优化提升服务
《XXX场景变更标准SOP设计》
变更风控自动化能力构建服务
《自动化变更平台实施计划》
《自动化变更平台设计方案》
《自动化变更验证报告》
混沌工程演练服务基础版
《演练风险分析报告》
《演练应急预案》
《演练runbook》
《演练方案》
《演练总结报告》
《演练验收报告》
《混沌工程演练服务验收报告》
混沌工程演练服务增量包
责任矩阵
- 共同责任
- 双方商定并确认确定性运维管理服务服务的具体的业务需求范围及目标。
- 双方商定并确认确定性运维管理服务服务的项目管理计划。
- 双方商定并确认确定性运维管理服务服务的方案内容并评审。
- 华为责任
- 华为须依照责任矩阵完成需求调研、方案设计和交付实施。
- 服务前,按照客户所选服务项,制定服务计划和报价清单供客户审核确认。
- 服务期间,依确认后的服务计划进行实施,编写交付件。
- 服务结束后,根据所选服务项,出具交付件清单。
- 华为云需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会客户,直至项目最终验收完成。
- 华为云得到客户授权后,授权数据仅限用于确定性运维管理服务服务中涉及的服务内容,不得超出限定范围。
- 客户责任
- 数据备份保存。
- 客户业务系统验证。
- 基础设施层需由客户进行运维,包括计算、网络、存储、OBS桶、安全服务等。
- 客户需指派一位项目负责人负责双方之间协调及管理、审核、验收华为云提供的服务。
- 客户必须提供业务系统相关的信息(包括但不限于应用架构、部署架构、资源数量和性能)。
- 责任分工矩阵表
以下为职责描述案例,可酌情修改。
- R=责任方/Responsibility
- S=协助方/Support
- 应用代维AMS:
序号
服务流程
工作内容
华为
客户
1
项目开工会
与客户项目负责人(团队)进行沟通,需求识别收集、建立预期目标、明确服务范围、内容、交付物对齐、识别干系人、制定工作计划。
R
S
2
客户现状调研
通过访谈和调研的方式针对客户运维现状进行整体调研,识别各个领域的痛点和挑战。
R
S
3
服务实施
安排SRE对客户应用进行7*24监控,对发生的告警按照与客户约定的方式进行处理。
R
S
对现网发生的事件按照操作手册进行处理。
R
S
对问题进行生命周期管理,联系客户或相关责任放记录、跟踪、验证和关闭问题。
R
S
按照客户审批的故障处理手册对现网故障进行恢复。
R
S
按照客户审批的变更方案在规定时间范围内进行实施处理。
R
S
提供服务台接受客户的咨询或问题,对客户请求通过工单管理进行管理。
R
S
巡检监控基础设施资源负载情况,对系统容量进行管理。
R
S
根据客户提供的升级指导书对应用进行升级操作。
R
S
通过深度巡检或问题管理发现系统风险并进行管理。
R
S
对系统基础设施、中间件、数据库、应用程序等进行巡检,并输出巡检报告。
R
S
当系统发生重大故障时,对故障复盘,输出技术根因和管理根因分析,并提供优化整改建议。
R
S
按照客户审批的故障演练方案进行故障演练。
R
S
4
交付件输出
输出交付件《主动运维巡检报告》、《主动运维风险排查报告》、《故障处理报告》、《项目运维月报》等。
R
S
5
复盘总结
对运维服务整体进行复盘总结。
R
S