查看MRS集群组件运行状态
MRS集群创建后,用户可在MRS管理控制台或者集群Manager界面查看集群内各服务组件以及组件角色实例的运行状态,以判断组件是否运行正常。
前提条件
- 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
- 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。
通过管理控制台查看组件状态
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 在MRS集群详情页面,单击“组件管理”,可查看服务操作状态、服务健康状态和服务配置状态等信息。
图1 查看集群组件状态
表1 管理控制台组件状态说明 指标项
状态
描述
操作状态
已启动
服务已启动。
已停止
服务已停止。
启动失败
用户启动操作失败。
停止失败
用户停止操作失败。
未知
后台系统重启后,服务的初始状态。
健康状态
良好
该服务中所有角色实例正常运行。
故障
至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。
服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
未知
该服务中所有角色实例状态为“未知”。
正在恢复
后台系统正在尝试自动启动服务。
亚健康
该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用,此时与状态不正常服务相关的上层业务会收到影响。
HBase、Hive、Spark和Loader组件可显示“亚健康”(Subhealthy)状态。- Yarn已安装且不正常时,HBase处于“亚健康”状态。
- HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
配置状态
已同步
系统中最新的配置信息已生效。
配置超期
参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。
配置失败
参数配置过程中出现通信或读写异常,可尝试使用“同步配置”恢复。
配置中
参数配置进行中。
未知
无法获取当前配置状态。
- 单击组件名称,进入组件详情页面,可查看该组件的详细运行信息。
图2 查看集群组件详情
- 单击“实例”,可查看服务内各角色实例的详细运行信息。
- 角色实例列表包含了该服务中所有的角色在集群中的实例情况,列表可显示每个实例的运行状态、配置状态、实例对应的主机以及相关的IP地址信息等。
- 单击实例名称可继续进入实例详情页面,可查看实例基本信息、配置文件、实例日志以及该实例相关的监控指标图表。
图3 查看集群组件实例状态
表2 管理控制台实例状态说明 指标项
状态
描述
运行状态
良好
表示实例当前运行正常。
故障
表示实例当前无法正常工作。
已退服
表示实例处于退服状态。
未启动
表示实例已停止。
未知
表示实例的初始状态信息无法检测。
正在启动
表示实例正在执行启动过程。
正在停止
表示实例正在执行停止过程。
正在恢复
表示实例可能存在异常正在自动修复。
正在退服
表示实例正在执行退服过程。
正在入服
表示实例正在执行入服过程。
启动失败
表示实例启动操作失败。
停止失败
表示实例停止操作失败。
配置状态
已同步
系统中最新的配置信息已生效。
配置超期
参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。
配置失败
参数配置过程中出现通信或读写异常,尝试使用“同步配置”恢复。
配置中
参数配置进行中。
未知
无法获取当前配置状态。
通过Manager查看组件状态
- 登录集群Manager页面后,单击“集群 > 服务”,打开组件管理页面。
服务列表中包含了集群中所有已安装的组件,可显示每个组件的运行状态、配置状态、角色的类型以及对应的实例个数。
图4 查看集群组件状态
MRS 2.x及之前版本Manager界面中,单击“服务管理”打开组件管理页面。
表3 Manager组件状态说明 指标项
状态
描述
运行状态
良好
表示组件当前运行正常。
故障
表示组件当前无法正常工作。
亚健康
表示组件部分增强功能无法正常工作。
未启动
表示组件已停止。
未知
表示组件的初始状态信息无法检测。
正在启动
表示组件正在执行启动过程。
正在停止
表示组件正在执行停止过程。
启动失败
表示组件启动操作失败。
停止失败
表示组件停止操作失败。
配置状态
已同步
系统中最新的配置信息已生效。
- 过期(2.x及之前版本Manager)
- 配置过期(3.x及之后版本Manager)
参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。
失败
参数配置过程中出现通信或读写异常,尝试使用“同步配置”恢复。
- 同步中(2.x及之前版本Manager)
- 正在同步(3.x及之后版本Manager)
参数配置进行中。
未知
无法获取当前配置状态。
- 单击指定组件名称可查看该组件的详细信息。
- 单击“实例”,可查看服务内各角色实例的详细运行信息。
图5 查看集群组件实例状态
- 角色实例列表包含了该服务中所有的角色在集群中的实例情况,列表可显示每个实例的运行状态、配置状态、实例对应的主机以及相关的IP地址信息等。
- 单击实例名称可继续进入实例详情页面,可查看实例基本信息、配置文件、实例日志以及该实例相关的监控指标图表。
表4 Manager实例状态说明(3.x及之后版本) 指标项
状态
描述
运行状态
良好
表示实例当前运行正常。
故障
表示实例当前无法正常工作。
已退服
表示实例处于退服状态。
未启动
表示实例已停止。
未知
表示实例的初始状态信息无法检测。
正在启动
表示实例正在执行启动过程。
正在停止
表示实例正在执行停止过程。
正在恢复
表示实例可能存在异常正在自动修复。
正在退服
表示实例正在执行退服过程。
正在入服
表示实例正在执行入服过程。
启动失败
表示实例启动操作失败。
停止失败
表示实例停止操作失败。
配置状态
已同步
系统中最新的配置信息已生效。
配置过期
参数修改后,最新的配置未生效,需重启相应服务生效最新配置信息。
失败
参数配置过程中出现通信或读写异常,尝试使用“同步配置”恢复。
正在同步
参数配置进行中。
未知
无法获取当前配置状态。
表5 Manager实例状态说明(2.x及之前版本) 指标项
状态
描述
操作状态
已启动
角色实例已启动。
已停止
角色实例已停止。
启动失败
用户启动操作失败。
停止失败
用户停止操作失败。
退服中
角色实例正在退服。
已退服
角色实例已退服。
入服中
角色实例正在入服。
未知
后台系统重启后,角色实例的初始状态。
健康状态
良好
该角色实例正常运行。
恢复中
后台系统正在尝试自动启动角色实例。
故障
该角色实例运行异常,如PID不存在,无法访问端口。
未知
角色实例所在主机与后台系统未连接。
亚健康
该角色实例部分正常运行
配置状态
已同步
系统中最新的配置信息已生效。
过期
参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。
失败
参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。
同步中
参数配置进行中。
未知
无法获取当前配置状态。