更新时间:2024-11-29 GMT+08:00

服务管理概述

总览

登录FusionInsight Manager以后,选择“集群 > 服务”后,打开服务管理页面,包含功能区和服务列表。

功能区

服务管理页面的功能区支持选择视图类型,以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”“配置状态”选择所需要的服务。

服务列表

服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”,则显示为窗格样式;如果选择“列表视图”,则显示为表格样式。

本章节默认以“平铺视图”进行介绍。

服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务,例如启动、停止、重启服务等。

表1 服务运行状态

状态

说明

良好

表示服务当前运行正常。

故障

表示服务当前无法正常工作。

亚健康

表示服务部分增强功能无法正常工作。

未启动

表示服务已停止。

未知

表示服务的初始状态信息无法检测。

正在启动

表示服务正在执行启动过程。

正在停止

表示服务正在执行停止过程。

启动失败

表示服务启动操作失败。

停止失败

表示服务停止操作失败。

  • 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
  • HBase、Hive、Spark和Loader可显示“亚健康”(Subhealthy)状态。
    • Yarn已安装且不正常时,HBase处于“亚健康”状态。如启用多实例功能,则已安装的所有HBase服务实例处于“亚健康”状态。
    • HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
    • 启用多实例功能后,任意一个HBase服务实例已安装且不正常时,Loader处于“亚健康”状态。
    • 启用多实例功能后,某一个HBase服务实例已安装且不正常时,对应的Hive和Spark服务实例处于“亚健康”状态,即HBase2已安装且不正常时,Hive2和Spark2为“亚健康”状态。
表2 服务配置状态

状态

说明

已同步

表示服务所有参数配置已在集群内全部生效。

配置过期

表示修改服务参数后,最新的配置未同步且未生效,需要同步配置且重启相应服务。可单击配置状态后的图标查看过期的配置项。

失败

表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。

正在同步

表示正在同步服务参数配置。

未知

表示服务配置的初始状态信息无法检测。

服务列表中单击服务对应菜单,可对服务进行简单的维护管理操作,具体如表3所示。

表3 基本维护管理功能

操作入口

说明

“启动服务”

启动集群中指定服务。

“停止服务”

将集群中指定服务停止。

“重启服务”

将集群中指定服务重启。

说明:

某个服务可能被其他服务依赖,重启该服务则导致其他服务不可用,需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作,集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如表4所示。

“滚动重启服务”

为集群中指定服务提供不中断业务的重启操作,具体参数配置可参考表1

同步配置

  • 为集群中指定服务启用新的配置参数。
  • 为集群中“配置状态”为“配置过期”的服务,下发新的配置参数。
说明:

部分服务同步配置后需重启服务使配置生效。

表4 重启时长

服务名称

重启时长

启动时长

附加说明

IoTDB

3min+x

ConfigNode: 2min

IoTDBServer:1min+x

x为每个IoTDBServer实例元数据加载时长,每200GB数据大约耗时30秒。

重启时长是各个实例同时启动,并发单独进行计算的, 整个服务的启动时长由数据量最多的节点的数据决定。

CDL

2min

CDLConnector:1min

CDLService:1min

-

ClickHouse

4min

ClickHouseServer:2min

ClickHouseBalancer:2min

-

HDFS

10min+x

NameNode:4min+x

DataNode:2min

JournalNode:2min

Zkfc:2min

x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。

Yarn

5min+x

ResourceManager:3min+x

NodeManager:2min

x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟

Mapreduce

2min+x

JobHistoryServer:2min+x

x为历史任务扫描时长,每10万任务大约2.5min

ZooKeeper

2min+x

quorumpeer:2min+x

x为加载znode节点时长,每100万znode大约1min

Solr

10min+x

10min+x

x为数据恢复时长,每1万分片大约需要10min,以150实例数为例,每1万分片数据量增加15T,恢复时长大约增加15min。

Elasticsearch

10min+x

5min+x

x为数据恢复时长,每1万分片大约需要8min。

Hive

3.5min

HiveServer:3min

MetaStore:1min30s

WebHcat:1min

Hive整体服务:3min

-

Spark

5min

JobHistory:5min

SparkResource:5min

JDBCServer:5min

-

Flink

4min

FlinkResource:1min

FlinkServer:3min

-

Kafka

2min+x

Broker:1min+x

x为数据恢复时长,单实例20000 partition启动所需时长大约2mins。

Redis

1min+x

Redis:1min+x

  1. Redis单节点安装实例个数与CPU核数有关,1min为单实例启动时长。
  2. x为数据恢复时长,单实例从RDB备份恢复1GB数据所需时长大约2min。单实例从AOF备份恢复1GB数据所需时长大约1min。

FTP-Server

1min

FTP-Server:1min

-

Flume

3min

Flume:2 min

MonitorServer:1min

-

RTDService

2 min

RTDServer: 2 min

-

Containers

2 min

WebContainer: 2 min

-

MOTService

30 min

MOTServer:30 min

-

Doris

2 min

FE:1min

BE:1min

DBroker:1min

-

MemArtsCC

2 min

CCWorker:1min

CCSidecar:1min

-