更新时间:2024-11-29 GMT+08:00

集群运维

告警管理

MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。

MRS还可以与消息通知服务(SMN)的消息服务系统对接,将告警信息通过短信或者邮件等形式推送给用户。具体介绍请参见消息通知

运维支撑

MRS提供的集群的资源是完全属于用户的,通常情况下,当集群出现问题,需要运维人员支撑时,运维人员是无法直接访问的。为了更好的服务客户,MRS提供两种方式来减少定位问题时的信息传递:

  • 日志共享:用户可以在MRS 页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。
  • 运维授权:MRS服务提供运维授权功能,用户在使用MRS集群过程中,发生问题可以在MRS页面发起运维授权,由运维人员帮助客户快速定位问题,用户可以随时收回该授权。

健康检查

MRS为用户提供界面化的系统运行环境自动检查服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用户查看检查结果后,还可导出检查报告用于存档及问题分析。