计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

使用集群前必读:性能管理要求

更新时间:2025-01-22 GMT+08:00

GaussDB(DWS)数据库系统的性能管理在整个系统中起着很关键的作用,为了避免集群频繁出现资源(CPU、I/O、内存、磁盘空间等)过载情况,需要对集群内的业务和整体资源进行设限和管控,并定期进行主动运维,提前进行扩容规划等。

例如,在新业务上线前,需要对现有资源进行评估和压测,防止新业务上线后占用大量资源影响集群整体性能。后期随着存量业务数据量的增长,集群磁盘空间和I/O使用也会逐渐增加,需要定期进行老化数据和脏数据的清理。

本章节主要介绍集群性能基线,为用户和运维人员介绍常见业务场景下的性能管理要求,提前评估集群容量,防止集群出现资源过载。

GaussDB(DWS)集群性能基线

本节主要介绍GaussDB(DWS)各项资源的推荐值风险值。

集群资源水位超过推荐值后,运维人员需要及时介入处理,防止节点异常、主备切换等故障场景下的性能降级。

集群资源水位超过风险值后,集群会有很高的过载风险,应禁止继续上线新业务。

此时,需要通过业务优化或错峰调度等手段尽快降低集群整体负载,必要时可以进行集群拆分或扩容防止影响整体性能。

表1 集群性能容量风险和建议

性能指标

建议值

超过建议值的影响

推荐措施

风险值

超过风险值的影响

推荐措施

CPU使用率

60%以下

在主备非均衡或集群“节点故障”状态下,部分节点的CPU使用率有过载风险,引发性能降级。

建议配置资源池进行资源隔离,参考GaussDB(DWS)资源负载管理。通过实时查询性能监控抓取高CPU语句进行业务优化,参见监控并诊断GaussDB(DWS)集群TopSQL

80%

出现严重的CPU争抢,导致Stream等算子执行时间劣化,集群整体性能受到严重影响。

通过业务错峰、业务拆分、业务优化、集群扩容等手段降低高峰期CPU负载。

也可以设置资源池CPU限额与配额,参见高CPU系统调优方案

CPU倾斜率

15%以下

出现计算倾斜,导致部分语句无法充分发挥分布式下的最佳性能。

建议通过异常规则、配置熔断参数等手段对倾斜语句提前熔断;日常对此类业务进行优化整改。

30%

高峰期容易出现单节点CPU过载,木桶效应导致集群整体劣化,无法充分发挥其他节点性能。

建议通过异常规则、配置熔断参数等手段对倾斜语句提前熔断;日常对此类业务进行优化整改。

I/O使用率

60%以下

在主备非均衡或集群“节点故障”状态下,部分节点的I/O使用率有过载风险,引发性能降级,易出现非均衡状态下的I/O过载。

参考性能监控抓取I/O高的业务,通过索引、分区剪枝、行列存整改等常用方法,降低磁盘I/O使用率。

90%

出现比较严重的I/O争抢,导致表扫描等算子执行时间劣化,集群整体性能受到影响。

建议对高I/O语句优化和错峰保证I/O性能,提前规划集群扩容减少单节点I/O吞吐量。

I/O读写时延

400ms以下

进行数据读写时性能出现波动,查询时间不稳定,出现偶发性能劣化。

参考性能监控抓取I/O高的业务,通过索引、分区剪枝、行列存整改等常用方法,降低磁盘I/O使用率,读写时延会随之降低。

1000ms

数据读写性能明显劣化,实时入库业务出现积压,整体性能出现劣化。

建议对高I/O语句、高下盘语句、高并发语句进行优化整改,进行业务错峰和业务拆分。

动态内存使用率

80%以下

当业务流量突增或复杂灵活查询执行时,会有内存不足报错的风险。

配置异常规则和内存熔断;对高内存业务进行优化整改;参考实时查询监控并诊断GaussDB(DWS)集群TopSQL进行业务优化。

降内存方法可参见降低内存的处理方案

90%

出现CCN排队,业务出现内存不足报错,有进程OOM风险。

配置异常规则和内存熔断;对高内存业务进行优化整改;参考实时查询监控并诊断GaussDB(DWS)集群TopSQL进行业务优化。

磁盘空间使用率

70%以下

SQL下盘量较大,磁盘使用率超过90%时,有只读风险。

配置触发下盘量阈值,低峰期进行数据清理和脏页清理,提前进行扩容规划。

更多可参见磁盘使用率高处理方案

80%

出现SQL下盘后只读风险增加。

配置触发下盘量阈值,低峰期进行数据清理和脏页清理,提前进行扩容规划。

磁盘空间倾斜率

15%以下

引发算子计算/数据下盘倾斜严重,导致不同DN的处理压力不同,影响业务性能,并容易造成单DN磁盘使用率过高。

参考表诊断进行排查并进行表倾斜处理。

20%

磁盘倾斜引发CPU、I/O、内存倾斜,影响集群整体性能,容易造成单DN磁盘满。

参考表诊断进行表倾斜处理。

GaussDB(DWS)常见性能管理场景和建议

本节主要介绍常见的性能管理场景和建议手段,在业务上线和日常运维过程中,应当对性能容量进行充分评估,防止集群出现性能过载。

表2 常见性能管理场景

常见场景

性能风险

评估手段

建议措施

新集群上线

新集群在业务上线前的性能容量未知,有性能不达标风险。

需在业务上线前对集群进行充分压力测试,新老集群双轨运行至少一个业务周期,关键业务/链路的QPS、时延、最大并发量、最大响应时间等性能指标能够得到充分测试,从而确保新集群的性能容量能够得到充分评估。

参考GaussDB(DWS)资源负载管理配置动态资源管理并划分业务资源池,提前配置异常规则,配置熔断参数。

新业务上线

与集群现有业务出现资源争抢,新业务并发、资源消耗不合理时容易造成资源过载导致整体性能劣化。

新业务在测试环境得到充分测试,根据测试结果预估CPU消耗、执行时间、业务并发量等指标,分析新业务执行计划,确保执行计划最优。

当集群性能容量超过风险值时,应禁止新业务上线;当性能容量较为充裕时,新业务应通过资源池进行资源隔离,根据测试结果配置合理的熔断参数,并准备回退方案,确保出现问题后可快速回退。

灵活查询性能管理

灵活查询的SQL类型多样,执行效率和资源消耗差异很大,极端情况下可能会出现某一个“慢SQL”将整个集群性能拖垮的情况。

可根据实时查询统计灵活查询的CPU消耗、内存消耗、执行时间、并发量等信息。

灵活查询用户应划分到独立于其他业务的资源池内,并进行CPU、内存等资源限制,并配置异常规则和熔断策略,及时拦截“慢SQL”,同时,建议遵循权限最小化原则,限制灵活查询用户的权限,禁止管理员用户作为灵活查询用户主账号。

存量业务增长

存量业务的数据量、并发量等持续增长,会造成集群资源使用率越来越高,不及时治理有过载风险。

定期统计存量业务的脏数据、倾斜率、ANALYZE时间、分区个数、资源消耗情况等指标。

每周对集群进行定期巡检,定期对脏页率高的表进行脏数据清理,对统计信息不及时的表及时ANALYZE。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容