更新时间:2024-03-12 GMT+08:00

服务管理概述

总览

登录FusionInsight Manager以后,选择“集群 > 待操作集群的名称 > 服务”后,打开服务管理页面,包含功能区和服务列表。

图1 服务管理页面

功能区

服务管理页面的功能区支持选择视图类型,以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”“配置状态”选择所需要的服务。

服务列表

服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”,则显示为窗格样式;如果选择“列表视图”,则显示为表格样式。

本章节默认以“平铺视图”进行介绍。

服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务,例如启动、停止、重启服务等。

表1 服务运行状态

状态

说明

良好

表示服务当前运行正常。

故障

表示服务当前无法正常工作。

亚健康

表示服务部分增强功能无法正常工作。

未启动

表示服务已停止。

未知

表示服务的初始状态信息无法检测。

正在启动

表示服务正在执行启动过程。

正在停止

表示服务正在执行停止过程。

启动失败

表示服务启动操作失败。

停止失败

表示服务停止操作失败。

  • 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
  • HBase、Hive、Spark和Loader可显示“亚健康”(Subhealthy)状态。
    • Yarn已安装且不正常时,HBase处于“亚健康”状态。如启用多实例功能,则已安装的所有HBase服务实例处于“亚健康”状态。
    • HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
    • 启用多实例功能后,任意一个HBase服务实例已安装且不正常时,Loader处于“亚健康”状态。
    • 启用多实例功能后,某一个HBase服务实例已安装且不正常时,对应的Hive和Spark服务实例处于“亚健康”状态,即HBase2已安装且不正常时,Hive2和Spark2为“亚健康”状态。
表2 服务配置状态

状态

说明

已同步

表示服务所有参数配置已在集群内全部生效。

配置过期

表示修改服务参数后,最新的配置未同步且未生效,需要同步配置且重启相应服务。可单击配置状态后的图标查看过期的配置项。

失败

表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。

正在同步

表示正在同步服务参数配置。

未知

表示服务配置的初始状态信息无法检测。

服务列表中单击服务对应菜单,可对服务进行简单的维护管理操作,具体如表3所示。

表3 基本维护管理功能

操作入口

说明

“启动服务”

启动集群中指定服务。

“停止服务”

将集群中指定服务停止。

“重启服务”

将集群中指定服务重启。

说明:

某个服务可能被其他服务依赖,重启该服务则导致其他服务不可用,需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作,集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如表4所示。

“滚动重启服务”

为集群中指定服务提供不中断业务的重启操作,具体参数配置可参考表1

同步配置

  • 为集群中指定服务启用新的配置参数。
  • 为集群中“配置状态”为“配置过期”的服务,下发新的配置参数。
说明:

部分服务同步配置后需重启服务使配置生效。

表4 重启时长

服务名称

重启时长

启动时长

附加说明

ClickHouse

4min

ClickHouseServer:2min

ClickHouseBalancer:2min

-

HDFS

10min+x

NameNode:4min+x

DataNode:2min

JournalNode:2min

Zkfc:2min

x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。

Yarn

5min+x

ResourceManager:3min+x

NodeManager:2min

x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟

MapReduce

2min+x

JobHistoryServer:2min+x

x为历史任务扫描时长,每10万任务大约2.5min

Zookeeper

2min+x

quorumpeer:2min+x

x为加载znode节点时长,每100万znode大约1min

Hive

3.5min

HiveServer:3min

MetaStore:1min30s

WebHcat:1min

Hive整体服务:3min

-

Spark2x

5min

JobHistory2x:5min

SparkResource2x:5min

JDBCServer2x:5min

-

Flink

4min

FlinkResource:1min

FlinkServer:3min

-

Kafka

2min+x

Broker:1min+x

x为数据恢复时长,单实例20000 partition启动所需时长大约2mins。

Storm

6min

Nimbus:3mins

UI:1min

Supervisor:1min

Logviewer:1min

-

Flume

3min

Flume:2 min

MonitorServer:1min

-