更新时间:2025-01-08 GMT+08:00
分享

方案概述

应用场景

  • 运维基础监控:通过代理或无代理方式对上百家厂商的服务器、网络设备、操作系统、存储、虚拟化、中间件、数据库、Web服务等资源的配置数据和指标数据的统一采集、统一监控、统一管理。
  • 数据中心统一运管:以提高数据中心ROI为最终目标,保障数据中心业务连续性
  • 用户体验与应用性能管理:以提升数字化用户体验,帮助企业实现数字化转型赋能角度出发,整体的解决方案提供了包括web用户、移动用户、应用性能等从前端到后端的整体性能监控
  • 运维日志分析:基于大数据技术与智能算法实现对离散日志数据的统一采集、处理、存储与查询分析。该场景同时具备日志检索、日志模式识别、日志可视化分析、日志异常检测、日志智能告警、日志脱敏、日志关联查询等能力。可应用于统一日志管理、基于日志的运维监控与分析、调用链监控与追踪、安全审计与合规、各种业务分析等数字化运维和运营场景
  • 运维全栈监控:可助力各行各业在面临数字化转型过程中,为了保障用户业务是稳定、持续、高效的运营。通过从不同的维度对用户的数据中心的基础设施、网络性能、应用性能、终端用户的真实体验进行全面覆盖,主动实现对业务运行状态全面感知和实时监控。
  • 运维中台:将智能运维平台的通用能力进行抽象化,赋能内外部智能运维体系。作为运维能力中台,对已有工具集和新建监控工具的数据充分利用,充分利用数据价值,提升运维效率,利用数据治理和算法的能力赋能业务和应用运维场景,赋能数字化运维和智能运维,让企业的运维能力化,快速和高效的实现运维的业务价值。
  • 运维服务管理:以ITIL4、ITSS为理论基础,以大数据和人工智能技术为支撑,适应企业数字化转型中新的业务发展与IT架构的特点,将企业IT部门技术资源中各类要素(人、物、财)进行科学地组织与管理,合理调配人力资源、有效管理信息化软硬件、提高运维管理工作水平、提升运维整体效能。
  • 运维自动化:基于DevOps、SecOps、AIOps理念,将数据中心运维过程进行原子化提炼,具备开箱即用的各类自动化运维场景,如应用发布、灾备切换、原子化工具栈、自动化巡检、网络自动化等。
  • 低代码可视化建设:结合低代码理念,实现灵活定制数据可视化大屏,平台实现了数据接入、数据转换、数据可视化的完整闭环,通过画布式表单设计、拖拽式流程设计、可视化编排、结合丰富的应用模板库、组件库,零代码实现业务数据定制、大屏应用生成。

【某制造业客户运维管理项目

客户是一家专注于终端产品、软件和互联网服务的科技公司, 产业布局遍及50+国家和地区,拥有超过400000个销售网点,服务超过4.6亿用户,在全球共有六大研究所和四大研发中心,拥有40000+名员工,研发投入超过100亿。在全球知名品牌排行榜《凯度BrandZ中国全球化品牌50强》,客户名列第六位,被评选为“优秀全球化发展品牌”。

客户痛点:

  • 缺乏体系:运维服务不成体系,运维质量难以保证。
  • 效率低:故障反馈周期长、效率低。
  • 追溯难:工单问题无记录、不能沉淀共享。
  • 复杂性高:需集成客户方多种渠道产品。

通过本方案实现的业务效果:

  • 统一服务台:实现多入口统一线上管理。
  • 增强用户粘性:达到客户用户量29万+,活跃用户数 5000。
  • 符合用户实际使用场景:定制流程70+,开发新功能274个。

方案架构

业务架构图

图1 业务架构图

云智慧AIOPS智能运维平台解决方案的整体架构是一个多层次、模块化的系统,旨在实现全面的监控、管理和自动化运维功能。以下是对该架构的详细描述:

  • 交互展现层:这一层包括移动端和H5界面,提供全链路可观测性工具如Doop、工作台、报告报表和流程管理平台DOSM/ITSM等。这些工具支持链路监控、深度分析、告警管理、故障管理和工单管理等功能,为用户提供直观的运维数据展示和操作界面。
  • 数据处理层:由数据开放平台构成,支持Kafka、JDBC、RPC、Restful等多种数据接入方式。这一层包括数据处理(DODB)、算法中心(DOIA)、资产配置管理、告警管理(DOEM)等模块,负责数据加工、异常检测、容量预测、告警事件处理等任务。DODB作为专业运维数据库,能够方便地进行采集任务的配置和管理,支持数百种数据源,包括日志数据采集、数据库和中间件数据性能数据采集等。
  • 数据采集层:通过采控平台,利用Restful、CLI、Webservice、API、SNMP、IPMI、SSH、JSON、Exporter、JDBC、Agent等技术,实现对云监控服务、云审计服务、云数据库、分布式缓存、分布式消息队列和表格存储等资源的监控数据采集。
  • 基础设施即服务(IaaS):提供了资源管理平台PaaS和基础设施/云资源IaaS,确保了平台的计算资源和存储资源的高效管理。
  • 安全监控中心DOP和自监控管理DMP:用于保障平台的安全性和稳定性,实现快速处置和自动化运维,包括巡检、脚本和作业等。
  • 智能算法:AIOPS平台通过智能算法对数据进行深度分析,实现数据异常监测、设备故障预测等功能。基于运行态势的预判,让一切都在掌控中。
  • 运维数据治理:以CMDB为主数据进行运维数据治理,以及对外提供相应的服务能力,构建数据资产地图、建立运维数据标准化治理体系,实现数据运营的能力,并持续提升数据服务质量,为后续AIOps等消费场景提供相应的支撑。

云智慧AIOPS智能运维平台通过这些层次的协同工作,实现了从数据采集、处理到展现的全流程智能化运维管理,帮助企业提升运维效率、确保系统高效运行和性能稳定性。

部署架构图

图2 部署架构图

以下是对该架构图的简单描述:

  • 通过kafka完成业务系统运维等数据的采集与传输
  • 通过Cloudtable服务提供的全托管数据存储和分析服务,进行海量的系统日志数据存储和分析、在线查询等功能。
  • 通过DCS实现在海量的日志条目中,对热点数据实时查询,达到快速定位问题分析问题的效果
  • 通过RDS专业的数据库管理平台,进行系统日志的存储查询达到快速分析任务

方案优势

  • 全面立体的方案覆盖:全栈、全场景、端到端的数字化运维服务能力,咨询+产品+运维专家服务;从用户体验-应用性能-基础设施各层面的全覆盖,打通运维监控体系各个观测场景;
  • 数据驱动运维:完整的运维数据治理体系;以数据为核心的新一代运维平台:底层数据的全面打通、高度产品化的数据治理能力和高度灵活的数据开放能力
  • 算法赋能:经过实践验证的算法赋能运维场景,现有智能运维7大场景,20+最佳实践算法范型开箱即用,多行业头部企业AIOps落地应用;
  • 柔性产品特性:千人千面,可以根据不同运维角色的需求,即确保运维工作的统一性,不重复建设,又实现了针对一线运维人员实用体验的个性化,使平台好用易用;

相关文档