服务管理概述
总览
登录FusionInsight Manager以后,选择“集群 > 服务”后,打开服务管理页面,包含功能区和服务列表。
功能区
服务管理页面的功能区支持选择视图类型,以及通过服务类型筛选和搜索服务。通过高级搜索可以根据“运行状态”和“配置状态”选择所需要的服务。
服务列表
服务管理页面的服务列表包含了集群中所有已安装的服务。如果选择“平铺视图”,则显示为窗格样式;如果选择“列表视图”,则显示为表格样式。
 
   本章节默认以“平铺视图”进行介绍。
服务列表可显示每个服务的运行状态、配置状态、角色的类型以及对应的实例个数。同时可以执行部分服务维护任务,例如启动、停止、重启服务等。
| 
        状态  | 
      
        说明  | 
     
|---|---|
| 
        良好  | 
      
        表示服务当前运行正常。  | 
     
| 
        故障  | 
      
        表示服务当前无法正常工作。  | 
     
| 
        亚健康  | 
      
        表示服务部分增强功能无法正常工作。  | 
     
| 
        未启动  | 
      
        表示服务已停止。  | 
     
| 
        未知  | 
      
        表示服务的初始状态信息无法检测。  | 
     
| 
        正在启动  | 
      
        表示服务正在执行启动过程。  | 
     
| 
        正在停止  | 
      
        表示服务正在执行停止过程。  | 
     
| 
        启动失败  | 
      
        表示服务启动操作失败。  | 
     
| 
        停止失败  | 
      
        表示服务停止操作失败。  | 
     
 
   - 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。
 - HBase、Hive、Spark和Loader可显示“亚健康”(Subhealthy)状态。
      
- Yarn已安装且不正常时,HBase处于“亚健康”状态。如启用多实例功能,则已安装的所有HBase服务实例处于“亚健康”状态。
 - HBase已安装且状态不正常时,Hive、Spark和Loader处于“亚健康”状态。
 - 启用多实例功能后,任意一个HBase服务实例已安装且不正常时,Loader处于“亚健康”状态。
 - 启用多实例功能后,某一个HBase服务实例已安装且不正常时,对应的Hive和Spark服务实例处于“亚健康”状态,即HBase2已安装且不正常时,Hive2和Spark2为“亚健康”状态。
 
 
| 
        状态  | 
      
        说明  | 
     
|---|---|
| 
        已同步  | 
      
        表示服务所有参数配置已在集群内全部生效。  | 
     
| 
        配置过期  | 
      
        表示修改服务参数后,最新的配置未同步且未生效,需要同步配置且重启相应服务。可单击配置状态后的  | 
     
| 
        失败  | 
      
        表示同步参数配置过程中出现通信或读写异常等操作。尝试使用“同步配置”恢复。  | 
     
| 
        正在同步  | 
      
        表示正在同步服务参数配置。  | 
     
| 
        未知  | 
      
        表示服务配置的初始状态信息无法检测。  | 
     
服务列表中单击服务对应菜单,可对服务进行简单的维护管理操作,具体如表3所示。
| 
        操作入口  | 
      
        说明  | 
     
|---|---|
| 
        “启动服务”  | 
      
        启动集群中指定服务。  | 
     
| 
        “停止服务”  | 
      
        将集群中指定服务停止。  | 
     
| 
        “重启服务”  | 
      
        将集群中指定服务重启。 
         说明: 
         某个服务可能被其他服务依赖,重启该服务则导致其他服务不可用,需要勾选“同时重启上层服务”。请根据对话框的服务列表确认是否可以执行操作,集群中由于依赖关系服务的重启为串行进行。单个服务的重启时长如表4所示。  | 
     
| 
        “滚动重启服务”  | 
      
        为集群中指定服务提供不中断业务的重启操作,具体参数配置可参考表1。  | 
     
| 
        | 
      
       
 
         说明: 
         部分服务同步配置后需重启服务使配置生效。  | 
     
| 
        服务名称  | 
      
        重启时长  | 
      
        启动时长  | 
      
        附加说明  | 
     
|---|---|---|---|
| 
        IoTDB  | 
      
        3min+x  | 
      
        ConfigNode: 2min IoTDBServer:1min+x  | 
      
        x为每个IoTDBServer实例元数据加载时长,每200GB数据大约耗时30秒。 重启时长是各个实例同时启动,并发单独进行计算的, 整个服务的启动时长由数据量最多的节点的数据决定。  | 
     
| 
        CDL  | 
      
        2min  | 
      
        CDLConnector:1min CDLService:1min  | 
      
        -  | 
     
| 
        ClickHouse  | 
      
        4min  | 
      
        ClickHouseServer:2min ClickHouseBalancer:2min  | 
      
        -  | 
     
| 
        HDFS  | 
      
        10min+x  | 
      
        NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min  | 
      
        x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10min。由于受DataNode数据块上报影响启动时间有一定浮动。  | 
     
| 
        Yarn  | 
      
        5min+x  | 
      
        ResourceManager:3min+x NodeManager:2min  | 
      
        x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟  | 
     
| 
        Mapreduce  | 
      
        2min+x  | 
      
        JobHistoryServer:2min+x  | 
      
        x为历史任务扫描时长,每10万任务大约2.5min  | 
     
| 
        ZooKeeper  | 
      
        2min+x  | 
      
        quorumpeer:2min+x  | 
      
        x为加载znode节点时长,每100万znode大约1min  | 
     
| 
        Solr  | 
      
        10min+x  | 
      
        10min+x  | 
      
        x为数据恢复时长,每1万分片大约需要10min,以150实例数为例,每1万分片数据量增加15T,恢复时长大约增加15min。  | 
     
| 
        Elasticsearch  | 
      
        10min+x  | 
      
        5min+x  | 
      
        x为数据恢复时长,每1万分片大约需要8min。  | 
     
| 
        Hive  | 
      
        3.5min  | 
      
        HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min  | 
      
        -  | 
     
| 
        Spark  | 
      
        5min  | 
      
        JobHistory:5min SparkResource:5min JDBCServer:5min  | 
      
        -  | 
     
| 
        Flink  | 
      
        4min  | 
      
        FlinkResource:1min FlinkServer:3min  | 
      
        -  | 
     
| 
        Kafka  | 
      
        2min+x  | 
      
        Broker:1min+x  | 
      
        x为数据恢复时长,单实例20000 partition启动所需时长大约2mins。  | 
     
| 
        Redis  | 
      
        1min+x  | 
      
        Redis:1min+x  | 
      
       
  | 
     
| 
        FTP-Server  | 
      
        1min  | 
      
        FTP-Server:1min  | 
      
        -  | 
     
| 
        Flume  | 
      
        3min  | 
      
        Flume:2 min MonitorServer:1min  | 
      
        -  | 
     
| 
        RTDService  | 
      
        2 min  | 
      
        RTDServer: 2 min  | 
      
        -  | 
     
| 
        Containers  | 
      
        2 min  | 
      
        WebContainer: 2 min  | 
      
        -  | 
     
| 
        MOTService  | 
      
        30 min  | 
      
        MOTServer:30 min  | 
      
        -  | 
     
| 
        Doris  | 
      
        2 min  | 
      
        FE:1min BE:1min DBroker:1min  | 
      
        -  | 
     
| 
        MemArtsCC  | 
      
        2 min  | 
      
        CCWorker:1min CCSidecar:1min  | 
      
        -  | 
     
    
      