文档首页 > > 管理指南> 监控集群

监控集群

分享
更新时间: 2019/12/02 GMT+08:00

功能说明

用户需要查看集群的监控指标信息时,可以通过云监控(Cloud Eye)确认集群各项指标情况。通过监控集群运行时的各项指标,用户可以识别出数据库集群状态异常的时间段,然后在数据库日志中,分析可能存在问题的活动,从而优化数据库性能。本章节定义了数据仓库服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索数据仓库服务产生的监控指标和告警信息。

命名空间

SYS.DWS

集群监控指标

通过云监控提供的数据仓库服务相关监控指标,用户可以获取有关集群运行状况和性能的信息,并深入了解节点级别的对应信息。

数据仓库服务相关监控指标,具体请参见表1

表1 数据仓库服务监控指标

指标ID

指标名称

含义

取值范围

测量对象&维度

监控周期(原始指标)

shared_buffer_hit_ratio

缓存命中率

该指标用于表示需要访问的数据,在内存中可以直接获取的数据量比例,以百分比为单位。

0%~100%

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

in_memory_sort_ratio

内存中排序比率

该指标用于表示在数据进行排序时,可以直接在内存中排序的数据量比例,以百分比为单位。

0%~100%

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

physical_reads

文件读取次数

该指标用于表示读取数据库文件的累计次数。

> 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

physical_writes

文件写入次数

该指标用于表示写入数据库文件的累计次数。

> 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

physical_writes_per_second

每秒文件读取次数

该指标用于表示每秒读取数据库文件的次数。

≥ 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

physical_reads_per_second

每秒文件写入次数

该指标用于表示每秒写入数据库文件的次数。

≥ 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

db_size

数据量大小

该指标用于表示数据库中所有数据总量大小。

单位:兆字节(MB)

0MB~36000MB

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

active_sql_count

活跃SQL数

该指标用于表示数据库当前活动的SQL个数。

≥ 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

session_count

会话数

该指标用于表示数据库当前访问的连接个数。

≥ 0

测量对象:数据仓库集群

测量维度:dws_instance_id

1分钟

cpu_usage

CPU使用率

该指标用于统计每个集群节点的CPU使用率,以百分比为单位。

0%~100%

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

mem_usage

内存使用率

该指标用于统计每个集群节点的内存使用率,以百分比为单位。

0%~100%

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

iops

IOPS

该指标用于统计每个集群节点每秒处理的I/O请求数量。

≥ 0

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

bytes_in

网络输入吞吐量

该指标用于统计每秒从网络输入每个集群节点的数据总量。

单位:字节/秒

≥ 0字节/秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

bytes_out

网络输出吞吐量

该指标用于统计从每个节点每秒发送到网络的数据总量。

单位:字节/秒

≥ 0字节/秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

disk_usage

磁盘利用率

该指标用于统计每个集群节点的磁盘使用情况,以百分比为单位。

0%~100%

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

disk_total_size

磁盘总大小

该指标用于统计每个集群节点的数据磁盘总大小。

单位:吉字节(GB)

100GB~2000GB

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

disk_used_size

磁盘使用量

该指标用于统计每个集群节点的数据磁盘已用大小。

单位:吉字节(GB)

0GB~3600GB

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

disk_read_throughput

磁盘读吞吐量

该指标用于统计集群节点数据磁盘每秒读取的数据量。

单位:字节/秒

≥ 0字节/秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

disk_write_throughput

磁盘写吞吐量

该指标用于统计集群节点数据磁盘每秒写入的数据量。

单位:字节/秒

≥ 0字节/秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

avg_disk_sec_per_read

磁盘读耗时

该指标用于统计集群节点数据磁盘每次读取数据的平均耗时。

单位:秒

> 0秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

avg_disk_sec_per_write

磁盘写耗时

该指标用于统计集群节点数据磁盘每次写入数据的平均耗时。

单位:秒

> 0秒

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

avg_disk_queue_length

磁盘平均队列长度

该指标用于统计每个集群节点数据磁盘平均的I/O队列长度。

≥ 0

测量对象:数据仓库节点

测量维度:datastore_id

4分钟

维度

Key

Value

dws_instance_id

数据仓库集群

datastore_id

数据仓库节点

查看集群监控信息

  1. 登录DWS管理控制台,进入“集群管理”页面。
  2. 在集群列表中,在指定集群所在行,单击“查看监控指标”,打开云监控管理控制台。

    云监控支持查看数据仓库服务中数据仓库集群的监控信息,支持查看集群中各个节点各项监控信息。用户可以根据需要,选择指定的监控指标名称以及时间范围,从而显示监控指标的性能曲线。

    云监控也支持多个节点间的监控指标对比,具体操作请参见多节点间的监控指标对比

多节点间的监控指标对比

  1. 在云监控管理控制台的左侧导航栏中,单击总览 > 监控面板
  2. “监控面板”页面,单击“创建监控面板”,在弹出对话框中,输入“名称”后,单击“确定”
  3. “监控面板”页面,单击右上角的“添加监控视图”
  4. 在弹出的“添加监控视图”窗口中,配置标题和监控项。

    单击“添加监控项”可以添加多个监控指标。

    图1 添加监控视图

    以对比两个节点间的CPU使用率为例,参数设置如下表所示。

    表2 配置样例

    参数名

    样例值

    资源类型

    数据仓库服务

    维度

    数据仓库节点

    监控对象

    dws-64a3-dws-dn-1-1

    dws-64a3-dws-cn-cn-1-1

    监控指标

    CPU使用率

  5. 单击“确定”

    添加成功后,可在“监控面板”区域看到对应的监控视图。鼠标移至监控视图单击右上角的,可放大监控视图,查看详细的指标对比数据。

创建告警规则

通过设置DWS的告警规则,用户可以自定义监控目标和通知策略,及时了解DWS运行状态,从而起到预警作用。

设置DWS的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍设置DWS规则的具体方法。

  1. 通过访问以下地址登录DWS管理控制台:https://console.huaweicloud.com/dws
  2. 在左侧导航栏中选择“集群管理”。
  3. 在指定集群所在行的“操作”列中,单击“查看监控指标”,进入云监控管理控制台,查看数据仓库服务监控信息。

    确认待查看“监控信息”的集群状态必须为“可用”,否则不能进行创建告警操作。

  4. 在云监控管理控制台的左侧导航树上,选择告警 > 告警规则
  5. 在“告警规则”界面,单击右上方“创建告警规则”。
  6. 在“创建告警规则”界面,根据界面提示配置参数。

    1. 配置规则名称和描述。
    2. 配置告警内容,根据界面提示配置参数。
      图2 配置告警内容
      表3 配置告警内容

      参数名称

      参数说明

      取值样例

      资源类型

      配置告警规则监控的云服务资源名称。

      数据仓库服务

      维度

      用于指定告警规则对应指标的维度名称。可以选择“数据仓库节点”或“数据仓库服务”。

      数据仓库节点

      监控范围

      告警规则适用的资源范围,选择“指定资源”,然后勾选具体的监控对象,可以是一个或多个。对于DWS而言,选择您创建的集群实例ID或节点ID。单击将监控对象同步到右侧对话框。

      指定资源

      选择类型

      根据需要可选择从模板导入或自定义创建。

      • 如果当前没有告警模板,“选择类型”设置为“自定义创建”,然后根据界面提示配置参数创建自定义告警规则。
      • 如果当前已有告警模板,可以将“选择类型”设置为“从模板导入”,从而可以使用告警模板快速创建告警规则。

      自定义创建

      模板

      当告警内容选择从模板导入时,该参数有效。

      选择需要导入的模板。如果当前没有告警模板,可以单击“创建自定义告警模板”创建一个符合您需求的告警模板。

      -

      告警策略

      当告警内容选择从自定义创建时,该参数有效。

      设置触发告警的告警策略。例如,CPU使用率连续三个周期原始值≥80%。

      数据仓库服务支持的监控指标请参见表1

      -

      告警级别

      根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。

      重要

    3. 配置告警通知,根据界面提示配置参数。
      图3 配置告警通知
      表4 配置告警通知

      参数名称

      参数说明

      取值样例

      发送通知

      配置是否发送邮件、短信、HTTP和HTTPS通知用户。

      选择“是”(推荐选择),会发送通知;选择“否”,不会发送通知。

      生效时间

      该告警规则仅在生效时间内发送通知消息。

      如生效时间为00:00-8:00,则该告警规则仅在00:00-8:00发送通知消息。

      -

      主题通知

      需要发送告警通知的主题名称。

      当发送通知选择“是”时,需要选择已有的主题名称,若此处没有需要的主题则需先创建主题,该功能会调用消息通知服务(SMN),创建主题请参见《消息通知服务用户指南》。

      -

      触发条件

      可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。

      -

    4. 配置完成后,单击“立即创建”,完成告警规则的创建。

      告警规则添加完成后,当监控指标触发设定的阈值时,云监控会在第一时间通过消息通知服务实时告知您资源异常,以免因此造成业务损失。

配置OBS转储

云监控各监控指标的原始数据的保留周期为两天,超过保留周期后原始数据将不再保存。用户可以开通对象存储服务,然后将原始数据同步保存至OBS,以保存更长时间。

关于如何配置OBS转储,具体请参见《云监控服务用户指南》中的配置数据存储章节。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区