更新时间:2025-07-16 GMT+08:00
分享

什么是运维中心

运维面临的问题

  • 应用的快速迭代与现网业务稳定性之间存在冲突,应用发布周期短,版本可能未经过充分的现网验证。
  • 运维平台基于开源软件或者各类分散工具构建,各工具能力参差不齐,缺乏统一的数据接入、监控、诊断、数据治理体系。
  • 系统可用性依赖全栈可观测,运维人员需要被动变主动,利用数据实时监控分析系统的性能、可靠性和运行状态,及时发现问题,精准定位问题。
  • 外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露风险大。

如何解决运维问题

AppStage运维中心为华为云用户提供了一站式智能化运维平台,围绕云原生业务场景,将传统运维的以资源管理为核心升级为以应用管理为核心,沉淀华为内部运维经验,构建多个运维能力模块,形成强大运维生态系统,满足企业提高运维效率、提升运维质量、简化工作流程的需要。

运维中心的优势

  • 简化运维管理:使用AppStage运维中心可以集中管理和监控IT资源及服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期运行数据可视化,避免数据孤岛。
  • 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。
  • 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。
  • 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。
  • 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。
  • 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。

运维中心应用场景

华为云AppStage运维中心是以云原生应用为中心的一站式数智化运维平台,围绕SRE的工作场景,基于华为内外部优秀实践,把运维流程、工具在业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智能化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升,大大降低了企业用户维护和使用云原生应用的门槛。

运维中心功能介绍

  • 弹性网络服务(ENS):通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装,为具有相同安全保护需求并相互信任的服务提供访问策略的安全分组。当服务器加入到隔离域后,即受到这些访问规则的保护。访问规则继承自选定的安全区域(安全域),并根据租户声明的服务依赖关系自动生成。
    图1 ENS与原有模式差异
  • 主机管理服务(VMS):是基于云原生的主机资源管理服务,负责各种类型的主机资源发放/回收/操作、OS管理、密码密钥管理。

    提供将华为云购买的主机纳管至VMS进行统一管理的能力,VMS功能如图2所示。

    图2 VMS功能架构图
  • 弹性资源服务(ERS):提供资源池监控、访问安全控制、任务调度、业务负载弹性伸缩、集群联邦、配额管理和多种K8s扩展等能力,通过统一的对外接口提供业务管理能力,上层业务不再感知下层资源。同时提供Portal可视化管理容器,包括工作负载的管理、配置文件管理和容器WebTerminal。
  • 部署服务:基础设施即代码(Infrastructure as Code,简称IaC)是指使用代码方式来实现基础设施自动化配置和管理的方法,通过将传统的手动配置和脚本化配置转变为代码形式,使得基础设施的管理更加一致、可重复、可追踪和可版本控制。部署服务按服务管理资源,将微服务作为最小变更单元 ,进行自动化的变更管理。
  • 监控服务(ServiceInsight):是一个为开发人员和运维SRE(Site Reliability Engineer)设计的全面监控平台。该平台围绕故障生命周期的各个阶段构建,提供即开即用的解决方案。它集成了预防、检测、诊断、恢复、通报和改进功能,旨在提供一个一体化的可观测性解决方案。
  • 调用链服务(NUWA Trace):是一款应用程序性能监控(APM)产品,提供服务拓扑、服务轨迹、轨迹洞察三大特性,以实现监控并管理服务的故障和性能,帮助业务实现全栈式性能监控和端到端全链路追踪诊断,让应用运维简单高效。
  • 微服务平台:微服务平台(NUWA Runtime,简称NUWA)是一款全代管式微服务计算平台,可快速、安全地部署和扩缩容器化应用,是一个广义的Serverless平台,提供容器级别的完全托管的能力,目标是让业务看不到云。管理平台标准化业务的部署形式,业务只需要提供软件包,NUWA Runtime借助底层的弹性伸缩平台完成网络配置、双云集群部署、日志自动收集、灰度多阶段升级等。
  • 负载均衡:负载均衡(Software/Server Load Balancer,简称SLB)基于Nginx/OpenResty构建,作为业务前置的流量开关,提供反向代理;负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。
  • 服务发现:服务发现(NUWA Cloud Map,简称Cloud Map)是NUWA的重要组成部分,它设计的目的是作为云服务统一的服务注册发现中心,主要是为解决业务依赖环境配置繁琐的难题,具有服务注册和发现、业务故障隔离、服务路由、服务间调用关系正向设计和治理、微服务配置中心等特性。
  • 数据库治理(WiseDBA):一站式数据库管理平台与数据库专家服务,为用户提供数据库台账、自动化SQL变更、数据查询、自动化数据提取、性能分析、负载分析、数据库风险诊断等功能。
  • 访问凭据管理服务:访问凭据管理服务(Access Credential Management Service,简称ACMS)提供了微服务之间请求认证、敏感配置的托管和分发功能。

相关文档