更新时间:2022-02-24 GMT+08:00

集群运维

告警管理

MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。

MRS还可以与消息通知服务(SMN)的消息服务系统对接,将告警信息通过短信或者邮件等形式推送给用户。具体介绍请参见消息通知

补丁管理

MRS集群支持补丁操作,会及时发布开源大数据组件的补丁。用户能够在MRS集群管理页面上查看到运行集群相关的补丁发布信息,包括其修复问题的详细说明及影响场景,客户可以根据业务运行情况自行选择是否安装补丁。补丁安装过程是一键式操作,无需人工干预,通过滚动安装,补丁升级不会停止业务,保障用户集群长期可用。

MRS服务可以展示详细的补丁安装过程,补丁管理也支持补丁的卸载和失败回滚。

MRS 3.x及之后版本暂不支持在管理控制台执行补丁管理操作。

运维支撑

MRS提供的集群的资源是完全属于用户的,通常情况下,当集群出现问题,需要运维人员支撑时,运维人员是无法直接访问的。为了更好的服务客户,MRS提供两种方式来减少定位问题时的信息传递:

  • 日志共享:用户可以在MRS 页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。
  • 运维授权:MRS服务提供运维授权功能,用户在使用MRS集群过程中,发生问题可以在MRS页面发起运维授权,由运维人员帮助客户快速定位问题,用户可以随时收回该授权。

健康检查

MRS为用户提供界面化的系统运行环境自动检查服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用户查看检查结果后,还可导出检查报告用于存档及问题分析。