更新时间:2024-06-11 GMT+08:00

集群拓扑图

概述

集群拓扑图向用户展示了集群内所有节点的拓扑结构,方便用户查看节点状态、节点进程、节点IP地址等信息。

  • 集群拓扑图分为拓扑结构展示与节点进程展示两个功能。
  • 拓扑结构节点展示仅8.0.0及以上集群版本支持,节点进程展示仅8.2.0及以上集群版本支持。

查看集群拓扑图

  1. 登录GaussDB(DWS) 管理控制台。
  2. 在集群列表中单击指定集群名称。
  3. 进入“集群详情”页面,切换至“集群拓扑图”页签。
  4. 页面上方可选择“IP地址”或“节点名称”,在搜索框完成输入后可查看该“IP地址”或“节点名称”在集群拓扑图中的位置。

拓扑展示逻辑

节点拓扑整体示意图如上所示,其中按照图中标注的顺序解释如下 :

  1. 集群所绑定的ELB的公网IP地址(若绑定的ELB没有绑定弹性IP则显示为服务地址)。
  2. 集群所绑定的EIP的IP地址。
  3. 搜索分类,可以按照“IP地址”或“节点名称”进行精确搜索。
  4. 该框表示集群内所有的Ring环。
  5. 该框表示Ring环,一行为一个Ring环,该Ring环内的每个图标表示其内的一个节点。
  6. 节点以图标的形式进行表示,图标右上角为该节点的类型,暂只显示“CN”和“DN”两种类型(如果节点中有CN进程,则图标为CN;如果节点内没有CN进程,则显示DN图标)。
  7. 当鼠标悬停在节点图标上时,展示节点详细信息,包括节点名称、节点状态、节点的不同IP地址、节点进程

拓扑图专业名词解释

表1 集群结构描述

名称

描述

说明

ELB

弹性负载均衡(Elastic Load Balance,简称ELB)是将访问流量根据分配策略分发到后端多台服务器的流量分发控制服务。

用户使用客户端连接GaussDB(DWS)集群时,如果用户仅连接一个CN节点地址,通过该CN节点内网IP或弹性公网IP连接时,只能连接到固定的CN节点上,存在CN单点问题。如果通过内网域名或公网域名连接,域名解析服务会对每个客户端随机选择一个内网/公网IP地址,其解析机制并不能保证负载均衡,同样也存在CN单点问题。因此引入了弹性负载均衡服务(Elastic Load Balance,下称ELB)解决集群访问的单点问题。详情请参见集群绑定和解绑ELB

EIP

弹性公网IP(Elastic IP,简称EIP)提供独立的公网IP资源,包括公网IP地址与公网出口带宽服务。

可以与弹性云服务器、裸金属服务器、虚拟IP、弹性负载均衡、NAT网关等资源灵活地绑定及解绑。

Ring

安全环,集群内部的故障隔离域,主要作用是故障隔离,环内主机出现故障,故障不会扩散到环外。

如果环内某一单节点故障,所有DN节点在环内都有副本,数据不会丢失。

例如Server1发生故障后,DN1的备节点在Server2上,DN2的备节点在Server3上,DN3的备节点在Server3上,每个Server运行4个主DN,环内的各主机性能仍然保证均衡。

整个集群可以承受的主机故障数量范围为1~安全环的数量。

说明:

集群按照安全环节点数量的倍数进行扩容,也就是以环为最小单位进行扩容。

表2 节点IP描述

名称

描述

说明

Manage IP

数据仓库节点与管理面连接通信的IP。

主要用于管理面命令下发,以及节点状态、监控信息上报。

Traffic IP

数据仓库节点对外开放的IP。

该IP用于绑定EIP、ELB或直接通过VPC内部进行连接。

Internal IP

数据仓库集群内部数据通信IP。

-

Internalmgnt IP

数据仓库集群内部管理命令在节点之间通信IP。

-

表3 节点进程描述

名称

描述

说明

CMS

集群管理模块(Cluster Manager)。管理和监控分布式系统中各个功能单元和物理资源的运行情况,确保整个系统的稳定运行。

CMS为该模块中的CM Server。

CM由CM Agent、OM Monitor和CM Server组成。

  • CM Agent:负责监控所在主机上主备GTM、CN、主备DN的运行状态并将状态上报给CM Server。同时负责执行CM Server下发的仲裁指令。集群的每台主机上均有CM Agent进程。
  • OM Monitor:看护CM Agent的定时任务,其唯一的任务是在CM Agent停止的情况下将CM Agent重启。如果CM Agent重启不了,则整个主机不可用,需要人工干预。
    说明:

    CM Agent重启的情况很少发生,如果出现可能是因为系统资源不够用导致无法启动新进程。

  • CM Server:根据CM Agent上报的实例状态判定当前状态是否正常,是否需要修复,并下发指令给CM Agent执行。

GaussDB(DWS)提供了CM Server的主备实例方案,以保证集群管理系统本身的高可用性。正常情况下,CM Agent连接主CM Server,在主CM Server发生故障的情况下,备CM Server会主动升为主CM Server,避免出现CM Server单点故障。

GTM

全局事务管理器(Global Transaction Manager),负责生成和维护全局事务ID、事务快照、时间戳等全局唯一的信息。

整个集群只有一组GTM:主、备GTM各一个。

CN

协调节点(Coordinator)。负责接收来自应用的访问请求,并向客户端返回执行结果;负责分解任务,并调度任务分片在各DN上并行执行。

集群中,CN有多个并且CN的角色是对等的(执行DML语句时连接到任何一个CN都可以得到一致的结果)。只需要在CN和应用程序之间增加一个负载均衡器,使得CN对应用是透明的。CN故障时,由负载均衡自动路由连接到另外一个CN。

当前分布式事务框架下无法避免CN之间的互连,为了减少GTM上线程过多导致负载过大,建议CN配置数目≤10个。

CCN

中心协调节点(Central Coordinator)。

GaussDB(DWS)通过CCN(Central Coordinator )负责集群内的资源全局负载控制,以实现自适应的动态负载管理。CM在第一次集群启动时,通过集群部署形式,选择编号最小的CN作为CCN。若CCN故障之后,由CM选择新的CCN进行替换。

DN

数据节点(Datanode)。负责存储业务数据(支持行存、列存、混合存储)、执行数据查询任务以及向CN返回执行结果。

在集群中,DN有多个。每个DN存储了一部分数据。如果DN无高可用方案,则故障时会导致该实例上的数据无法访问。