集群运维
MRS提供的集群的资源是完全属于用户的,MRS提供多种方式帮助用户维护集群的正常运行。
Manager管理平台
MRS为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。开源组件结构复杂,安装、配置、管理过程费时费力,Manager提供了企业级的大数据集群的统一管理平台:
- 提供集群状态的监控功能,您能快速掌握服务及主机的健康状态。
- 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。
- 提供服务属性的配置功能,满足您实际业务的性能需求。
- 提供集群、服务、角色实例的操作功能,满足您一键启停等操作需求。
更多关于MRS集群Manager介绍,请参考MRS集群Manager界面简介。
告警管理
MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。
MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息通过短信或者邮件等形式推送给用户,具体介绍请参见集群状态消息通知。
补丁管理
MRS集群支持补丁操作,会及时发布开源大数据组件的补丁。用户能够在MRS集群管理页面上查看到运行集群相关的补丁发布信息,包括其修复问题的详细说明及影响场景,用户可以根据业务运行情况自行选择是否安装补丁。补丁安装过程是一键式操作,无需人工干预,通过滚动安装,补丁升级不会停止业务,保障用户集群长期可用。
MRS服务可以展示详细的补丁安装过程,支持补丁的卸载和失败回滚。
更多关于MRS集群补丁安装操作指导及补丁说明,请参考安装MRS集群补丁。
集群健康检查
MRS为用户提供界面化的系统运行环境自动检查服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用户查看检查结果后,还可导出检查报告用于存档及问题分析。
更多关于MRS集群日常健康检查操作指导说明,请参考执行MRS集群健康检查。
滚动重启服务
在修改了大数据组件的配置项后,需要重启对应的服务来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务断服。
为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
滚动重启方式的重启时间比普通重启时间久。
更多关于MRS集群组件重启操作指导说明,请参考重启MRS集群组件。
运维支撑
MRS集群的资源完全属于用户,通常情况下,当集群出现问题需要运维人员支撑时,运维人员无法直接访问该集群。为了更好的服务客户,MRS提供两种方式来减少定位问题时的信息传递:
- 日志共享:用户可以在MRS页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。
- 运维授权:MRS服务提供运维授权功能,用户在使用MRS集群过程中,发生问题可以在MRS页面发起运维授权,由运维人员帮助用户快速定位问题,用户可以随时收回该授权。
更多关于MRS集群远程运维支撑操作说明,请参考配置MRS集群远程运维。