服务管理概述
总览
登录FusionInsight Manager以后,选择“集群 > 待操作集群的名称 > 服务”后,打开服务管理页面,包含功能区和服务列表。
功能区
服务管理页面的功能区支持选择视图类型,以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”和“配置状态”选择所需要的服务。
服务列表
服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”,则显示为窗格样式;如果选择“列表视图”,则显示为表格样式。
本章节默认以“平铺视图”进行介绍。
服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务,例如启动、停止、重启服务等。
状态 |
说明 |
---|---|
良好 |
表示服务当前运行正常。 |
故障 |
表示服务当前无法正常工作。 |
亚健康 |
表示服务部分增强功能无法正常工作。 |
未启动 |
表示服务已停止。 |
未知 |
表示服务的初始状态信息无法检测。 |
正在启动 |
表示服务正在执行启动过程。 |
正在停止 |
表示服务正在执行停止过程。 |
启动失败 |
表示服务启动操作失败。 |
停止失败 |
表示服务停止操作失败。 |
- 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
- HBase、Hive、Spark和Loader可显示“亚健康”(Subhealthy)状态。
- Yarn已安装且不正常时,HBase处于“亚健康”状态。如启用多实例功能,则已安装的所有HBase服务实例处于“亚健康”状态。
- HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
- 启用多实例功能后,任意一个HBase服务实例已安装且不正常时,Loader处于“亚健康”状态。
- 启用多实例功能后,某一个HBase服务实例已安装且不正常时,对应的Hive和Spark服务实例处于“亚健康”状态,即HBase2已安装且不正常时,Hive2和Spark2为“亚健康”状态。
状态 |
说明 |
---|---|
已同步 |
表示服务所有参数配置已在集群内全部生效。 |
配置过期 |
表示修改服务参数后,最新的配置未同步且未生效,需要同步配置且重启相应服务。可点击配置状态后的图标查看过期的配置项。 |
失败 |
表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。 |
正在同步 |
表示正在同步服务参数配置。 |
未知 |
表示服务配置的初始状态信息无法检测。 |
服务列表中单击服务对应菜单,可对服务进行简单的维护管理操作,具体如表3所示。
操作入口 |
说明 |
---|---|
“启动服务” |
启动集群中指定服务。 |
“停止服务” |
将集群中指定服务停止。 |
“重启服务” |
将集群中指定服务重启。
说明:
某个服务可能被其他服务依赖,重启该服务则导致其他服务不可用,需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作,集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如表4所示。 |
“滚动重启服务” |
为集群中指定服务提供不中断业务的重启操作,具体参数配置可参考表1。 |
|
说明:
部分服务同步配置后需重启服务使配置生效。 |
服务名称 |
重启时长 |
启动时长 |
附加说明 |
---|---|---|---|
ClickHouse |
4min |
ClickHouseServer:2min ClickHouseBalancer:2min |
- |
HDFS |
10min+x |
NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min |
x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。 |
Yarn |
5min+x |
ResourceManager:3min+x NodeManager:2min |
x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟 |
MapReduce |
2min+x |
JobHistoryServer:2min+x |
x为历史任务扫描时长,每10万任务大约2.5min |
Zookeeper |
2min+x |
quorumpeer:2min+x |
x为加载znode节点时长,每100万znode大约1min |
Hive |
3.5min |
HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min |
- |
Spark2x |
5min |
JobHistory2x:5min SparkResource2x:5min JDBCServer2x:5min |
- |
Flink |
4min |
FlinkResource:1min FlinkServer:3min |
- |
Kafka |
2min+x |
Broker:1min+x |
x为数据恢复时长,单实例20000 partition启动所需时长大约2mins。 |
Storm/Streaming |
6min |
Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min |
- |
Flume |
3min |
Flume:2mins MonitorServer:1min |
- |