隔离MRS集群节点
用户发现某个主机出现异常或故障,无法提供服务或影响集群整体性能时,可以临时将主机从集群可用节点排除,使客户端访问其他可用的正常节点。在为集群安装补丁的场景中,也支持排除指定节点不安装补丁。
隔离主机仅支持隔离非管理节点。
该任务指导用户在MRS上根据实际业务或运维规划手工将主机隔离。
隔离MRS集群节点对系统的影响
- 主机隔离后该主机上的所有角色实例将被停止,且不能对主机及主机上的所有实例进行启动、停止和配置等操作。
- 主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。
- 主机隔离后部分服务的实例不再工作,服务的配置状态可能过期。
- 待操作节点的SSH端口需保持默认(22),否则将导致本章节任务操作失败。
前提条件
- 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
- 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。
通过管理控制台隔离主机
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 在集群详情页,单击“节点管理”。
- 展开节点组信息,勾选待隔离主机前的复选框。
- 选择“节点操作 > 隔离主机”。
图1 隔离主机
- 确认待隔离主机信息并单击“确定”。
界面提示“操作成功。”,单击“完成”,主机成功隔离,“操作状态”显示为“已隔离”。
已隔离的主机,可以取消隔离重新加入集群。用户已排除主机的异常或故障后,需要将主机隔离状态取消才能正常使用。
- 管理员已排除主机的异常或故障后,需要将主机隔离状态取消才能继续使用该主机。
在Manager隔离主机
MRS 3.x及之后版本:
- 登录FusionInsight Manager,单击“主机”。
- 勾选待隔离主机前的复选框,选择“更多 > 隔离”,输入密码验证身份,单击“确定”。
- 确认待隔离主机信息并单击“确定”。
界面提示操作成功后单击“完成”,主机隔离完成,“运行状态”显示为“已隔离”。
- 以root用户登录到被隔离主机上,执行pkill -9 -u omm命令终止节点上的omm用户的进程,然后执行ps -ef | grep 'container' | grep '${BIGDATA_HOME}' | awk '{print $2}' | xargs -I '{}' kill -9 '{}' 命令查找并终止container的进程。
- 管理员已排除主机的异常或故障后,需要将主机隔离状态取消才能继续使用该主机。
在“更多 > 取消隔离”。
界面勾选已隔离的主机,选择取消隔离后,主机上所有角色实例默认不启动。若需要启动主机上角色实例,可以在“主机”页面勾选目标主机,然后选择“更多 > 启动所有实例”。
MRS 2.x及之前版本:
- 登录MRS Manager,单击“主机管理”。
- 勾选待隔离主机前的复选框,选择“更多 > 隔离主机”,输入密码验证身份,单击“确定”。
- 确认待隔离主机信息并单击“确定”。
界面提示操作成功后单击“完成”,主机隔离完成,“操作状态”显示为“已隔离”。
- 管理员已排除主机的异常或故障后,需要将主机隔离状态取消才能继续使用该主机。