服务管理概述

总览

登录FusionInsight Manager以后，选择“集群 > 服务”后，打开服务管理页面，包含功能区和服务列表。

功能区

服务管理页面的功能区支持选择视图类型，以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”和“配置状态”选择所需要的服务。

服务列表

服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”，则显示为窗格样式；如果选择“列表视图”，则显示为表格样式。

本章节默认以“平铺视图”进行介绍。

服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务，例如启动、停止、重启服务等。

表1 服务运行状态
状态	说明
良好	表示服务当前运行正常。
故障	表示服务当前无法正常工作。
亚健康	表示服务部分增强功能无法正常工作。
未启动	表示服务已停止。
未知	表示服务的初始状态信息无法检测。
正在启动	表示服务正在执行启动过程。
正在停止	表示服务正在执行停止过程。
启动失败	表示服务启动操作失败。
停止失败	表示服务停止操作失败。

服务的运行状态为“故障”，会触发告警，请根据告警信息处理。
HBase、Hive、Spark和Loader可显示“亚健康”（Subhealthy）状态。
- Yarn已安装且不正常时，HBase处于“亚健康”状态。如启用多实例功能，则已安装的所有HBase服务实例处于“亚健康”状态。
- HBase已安装且状态不正常时，Hive、Spark和Loader处于“亚健康”状态。
- 启用多实例功能后，任意一个HBase服务实例已安装且不正常时，Loader处于“亚健康”状态。
- 启用多实例功能后，某一个HBase服务实例已安装且不正常时，对应的Hive和Spark服务实例处于“亚健康”状态，即HBase2已安装且不正常时，Hive2和Spark2为“亚健康”状态。

表2 服务配置状态
状态	说明
已同步	表示服务所有参数配置已在集群内全部生效。
配置过期	表示修改服务参数后，最新的配置未同步且未生效，需要同步配置且重启相应服务。可单击配置状态后的图标查看过期的配置项。
失败	表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。
正在同步	表示正在同步服务参数配置。
未知	表示服务配置的初始状态信息无法检测。

服务列表中单击服务对应菜单，可对服务进行简单的维护管理操作，具体如表3所示。

表3 基本维护管理功能
操作入口	说明
“启动服务”	启动集群中指定服务。
“停止服务”	将集群中指定服务停止。
“重启服务”	将集群中指定服务重启。说明：某个服务可能被其他服务依赖，重启该服务则导致其他服务不可用，需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作，集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如表4所示。
“滚动重启服务”	为集群中指定服务提供不中断业务的重启操作，具体参数配置可参考表1。
“同步配置”	为集群中指定服务启用新的配置参数。为集群中“配置状态”为“配置过期”的服务，下发新的配置参数。说明：部分服务同步配置后需重启服务使配置生效。

表4 重启时长
服务名称	重启时长	启动时长	附加说明
IoTDB	3min+x	ConfigNode: 2min IoTDBServer：1min+x	x为每个IoTDBServer实例元数据加载时长，每200GB数据大约耗时30秒。重启时长是各个实例同时启动，并发单独进行计算的，整个服务的启动时长由数据量最多的节点的数据决定。
CDL	2min	CDLConnector：1min CDLService：1min	-
ClickHouse	4min	ClickHouseServer：2min ClickHouseBalancer：2min	-
HDFS	10min+x	NameNode：4min+x DataNode：2min JournalNode：2min Zkfc：2min	x为NameNode元数据加载时长，每千万文件大约耗时2分钟，例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。
Yarn	5min+x	ResourceManager：3min+x NodeManager：2min	x为ResourceManager保留任务数恢复时长，每1万保留任务大约需要1分钟
Mapreduce	2min+x	JobHistoryServer：2min+x	x为历史任务扫描时长，每10万任务大约2.5min
ZooKeeper	2min+x	quorumpeer：2min+x	x为加载znode节点时长，每100万znode大约1min
Solr	10min+x	10min+x	x为数据恢复时长，每1万分片大约需要10min，以150实例数为例，每1万分片数据量增加15T，恢复时长大约增加15min。
Elasticsearch	10min+x	5min+x	x为数据恢复时长，每1万分片大约需要8min。
Hive	3.5min	HiveServer：3min MetaStore：1min30s WebHcat：1min Hive整体服务：3min	-
Spark	5min	JobHistory：5min SparkResource：5min JDBCServer：5min	-
Flink	4min	FlinkResource：1min FlinkServer：3min	-
Kafka	2min+x	Broker：1min+x	x为数据恢复时长，单实例20000 partition启动所需时长大约2mins。
Redis	1min+x	Redis：1min+x	Redis单节点安装实例个数与CPU核数有关，1min为单实例启动时长。 x为数据恢复时长，单实例从RDB备份恢复1GB数据所需时长大约2min。单实例从AOF备份恢复1GB数据所需时长大约1min。
FTP-Server	1min	FTP-Server：1min	-
Flume	3min	Flume：2 min MonitorServer：1min	-
RTDService	2 min	RTDServer: 2 min	-
Containers	2 min	WebContainer: 2 min	-
MOTService	30 min	MOTServer:30 min	-
Doris	2 min	FE：1min BE：1min DBroker：1min	-
MemArtsCC	2 min	CCWorker：1min CCSidecar：1min	-

父主题： 管理服务

上一篇：管理服务

下一篇：其他服务管理操作

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消