用户在日常使用中,可以在MRS管理所有组件(含角色实例)和主机的状态及指标信息:
- 状态信息,包括运行、健康、配置及角色实例状态统计。
- 指标信息,各组件的主要监控指标项。
- 导出监控指标(MRS 3.x及之后版本暂不支持)。
- MRS 3.x及之后版本操作方法请参考操作方法。
- 用户可以选择页面自动刷新间隔的设置,也可以单击
马上刷新。
- 组件管理支持三种参数值:
- “每30秒刷新一次”:刷新间隔30秒。
- “每60秒刷新一次”:刷新间隔60秒。
- “停止”:停止刷新。
前提条件
已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
操作方法
管理组件监控
- 在MRS集群详情页面,单击“组件管理”。
组件列表中标题包含“服务”、“操作状态”、“健康状态”、“配置状态”、“角色数”和“操作”。
- 服务操作状态描述如表1所示。
表1 服务操作状态
状态 |
描述 |
已启动 |
服务已启动。 |
已停止 |
服务已停止。 |
启动失败 |
用户启动操作失败。 |
停止失败 |
用户停止操作失败。 |
未知 |
后台系统重启后,服务的初始状态。 |
- 服务健康状态如表2所示。
表2 服务健康状态
状态 |
描述 |
良好 |
该服务中所有角色实例正常运行。 |
故障 |
至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。 |
未知 |
该服务中所有角色实例状态为“未知”。 |
正在恢复 |
后台系统正在尝试自动启动服务。 |
亚健康 |
该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用。 |
- 服务配置状态如表3所示。
表3 服务配置状态
状态 |
描述 |
已同步 |
系统中最新的配置信息已生效。 |
配置超期 |
参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 |
配置失败 |
参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 |
配置中 |
参数配置进行中。 |
未知 |
无法获取当前配置状态。 |
默认以“服务”列按升序排列,单击服务、操作状态、健康状态或配置状态可修改排列方式。
- 单击列表中指定服务名称,查看服务状态及指标信息。
- 定制、查看监控图表。
- 在“图表”区域框中,单击“定制”自定义服务监控指标。
- 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。
管理角色实例监控
- 在MRS集群详情页面,单击“组件管理”,在组件列表中单击服务指定名称。
- 单击“实例”,查看角色状态。
角色实例列表中包含实例信息的角色、主机名、管理IP、业务IP、机架、运行状态及配置状态。
- 角色实例的运行状态如表4所示。
表4 角色实例运行状态
状态 |
描述 |
良好 |
表示实例当前运行正常。 |
故障 |
表示实例当前无法正常工作。 |
已退服 |
表示实例处于退服状态。 |
未启动 |
表示实例已停止。 |
未知 |
表示实例的初始状态信息无法检测。 |
正在启动 |
表示实例正在执行启动过程。 |
正在停止 |
表示实例正在执行停止过程。 |
正在恢复 |
表示实例可能存在异常正在自动修复。 |
正在退服 |
表示实例正在执行退服过程。 |
正在入服 |
表示实例正在执行入服过程。 |
启动失败 |
表示实例启动操作失败。 |
停止失败 |
表示实例停止操作失败。 |
- 角色实例的配置状态如表5所示。
表5 角色实例配置状态
状态 |
描述 |
已同步 |
系统中最新的配置信息已生效。 |
配置超期 |
参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 |
配置失败 |
参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 |
配置中 |
参数配置进行中。 |
未知 |
无法获取当前配置状态。 |
默认以“角色”列按升序排列,单击角色、主机名、管理IP、业务IP、机架、运行状态或配置状态可修改排列方式。
支持在“角色”筛选相同角色的全部实例。
单击“高级搜索”,在角色搜索区域中设置搜索条件,单击“搜索”,查看指定的角色信息。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。
- 单击列表中指定角色实例名称,查看角色实例状态及指标信息。
- 定制、查看监控图表。
- 在“图表”区域框中,单击“定制”自定义服务监控指标。
- 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。
管理主机监控
- 在MRS集群详情页面,单击“节点管理”并展开节点组信息,查看所有主机状态。
主机列表中包括节点名称、IP、机架、操作状态、健康状态、CPU使用率、内存使用率、磁盘使用率、网络速度、规格名、规格、可用区。
- 主机操作状态如表6所示。
表6 主机操作状态
状态 |
描述 |
正常 |
主机及主机上的服务角色正常运行。 |
已隔离 |
主机被用户隔离,主机上的服务角色停止运行。 |
- 主机健康状态描述如表7所示。
表7 主机健康状态
状态 |
描述 |
良好 |
主机心跳检测正常。 |
故障 |
主机心跳超时未上报。 |
未知 |
执行添加操作时,主机的初始状态。 |
默认以“节点名称”列按升序排列,单击节点名称、IP、机架、操作状态、健康状态、CPU使用率、内存使用率、磁盘使用率、网络速度、规格名或规格可修改排列方式。
- 单击列表中指定的节点名称,查看单个节点状态及指标。