最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 使用限制
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 免费体验GaussDB(DWS)
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
用户指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
场景代码示例
错误码参考
- 控制台错误码
  - 管理控制台错误码
- 错误码(8.2.0及以下版本)
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
常见问题
- Top问题汇总
- 帮助与支持
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么GaussDB(DWS)自动快照创建很慢，很长时间都没有创建好？
  2. GaussDB(DWS)快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
视频帮助
性能白皮书
- 性能白皮书(9.1.0.x)
- 性能白皮书(8.1.3.x)
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

问题现象
确定I/O瓶颈&识别高I/O的语句
场景1：列存小CU膨胀
场景2：脏数据&数据清理
场景3：表存储倾斜
场景4：无索引、有索引不走
场景5：无分区、有分区不剪枝
场景6：行存表求count值
场景7：行存表求max值
场景8：大量数据带索引导入
场景9：行存大表首次查询
场景10：小文件多IOPS高
小结

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ 故障排除/ 集群性能/ 降低I/O的处理方案

降低I/O的处理方案

更新时间：2025-01-15 GMT+08:00

查看PDF

问题现象

在DWS实际业务场景中因I/O高、I/O瓶颈导致的性能问题较多，其中应用业务设计不合理导致的问题占大多数。本文从应用业务优化角度，以常见触发I/O慢的业务SQL场景为例，指导如何通过优化业务去提升I/O效率和降低I/O。

确定I/O瓶颈&识别高I/O的语句

通过以下内容掌握SQL级I/O问题分析的基础知识。
- PGXC_THREAD_WAIT_STATUS视图功能。
- EXPLAIN功能，需了解并熟悉Scan算子、A-time、A-rows、E- rows，详细内容参见：SQL执行计划。

通过pgxc_thread_wait_status视图查看并确定I/O瓶颈。全部状态信息请参见PG_THREAD_WAIT_STATUS。

      
         SELECT wait_status,wait_event,count(*) AS cnt FROM pgxc_thread_wait_status WHERE wait_status <> 'wait cmd' AND wait_status <> 'synchronize quit' AND wait_status <> 'none'  GROUP BY 1,2 ORDER BY 3 DESC limit 50;

I/O瓶颈时常见的主要状态如下表所示。

表1 I/O常见状态
Wait status	Wait event
wait io：等待I/O完成。	BufFileRead：从临时文件中读取数据到指定buffer。 BufFileWrite：向临时文件中写入指定buffer中的内容。 DataFileRead：同步读取表数据文件。 DataFileWrite：向表数据文件写入内容。 ......
acquire lwlock：等待获取轻量级锁。	WALWriteLock：用于避免并发WAL写盘。
wait wal sync：等待特定LSN的wal log完成到备机的同步。	NA
wait data sync：等待完成数据页到备机的同步。	NA
Material \| Material - write file：当前是Material算子，write file表示Material算子正在将数据写入磁盘。	NA

获取高I/O消耗的SQL。

先通过OS命令识别消耗高的线程，然后结合DWS的线程号信息找到消耗高的业务SQL，获取工具和操作方法请下载iowatcher。

场景1：列存小CU膨胀

某业务SQL查询出390871条数据需43248ms，分析计划主要耗时在Cstore Scan。

点击放大

Cstore Scan的详细信息中，每个DN扫描出2w左右的数据，但是扫描了有数据的CU（CUSome）155079个，没有数据的CU（CUNone）156375个，说明当前小CU、未命中数据的CU极多，即CU膨胀严重。

点击放大

触发因素：对列存表（尤其是分区表）进行高频小批量导入会造成CU膨胀。

处理方法

列存表的数据入库方式修改为攒批入库，单分区单批次入库数据量需大于DN个数*6W。
如果因业务原因无法攒批入库，则需定期VACUUM FULL此类高频小批量导入的列存表。
当小CU膨胀很快时，频繁VACUUM FULL也会消耗大量I/O，甚至加剧整个系统的I/O瓶颈，此场景建议修改列存表为行存表（CU长期膨胀严重的情况下，列存的存储空间优势和顺序扫描性能优势将不复存在）。

场景2：脏数据&数据清理

某业务SQL总执行时间2.519s，其中Scan占了2.516s，同时该表的扫描最终只扫描到0条符合条件数据，过滤了20480条数据，即总共扫描了20480+0条数据却消耗了2s+，扫描时间与扫描数据量严重不符，此现象可判断为由于脏数据多从而影响扫描和I/O效率。

点击放大

查看表脏页率为99%，VACUUM FULL后性能优化到100ms左右。

点击放大

触发因素：表频繁执行UPDATE/DELETE导致脏数据过多，且长时间未VACUUM FULL清理。

处理方法

对频繁UPDATE/DELETE产生脏数据的表，定期VACUUM FULL，因大表的VACUUM FULL也会消耗大量I/O，因此需要在业务低峰时执行，避免加剧业务高峰期I/O压力。
当脏数据产生很快，频繁VACUUM FULL也会消耗大量I/O，甚至加剧整个系统的I/O瓶颈，这时需要考虑脏数据的产生是否合理。针对频繁DELETE的场景，可以考虑如下方案：
1. 全量DELETE修改为TRUNCATE或者使用临时表替代。
2. 定期DELETE某时间段数据，使用分区表并使用TRUNCATE或DROP分区替代。

场景3：表存储倾斜

例如表Scan的A-time中，max time DN执行耗时6554ms，min time DN耗时0s，DN之间扫描差异超过10倍以上，这种集合Scan的详细信息，基本可以确定为表存储倾斜导致。

点击放大

通过table_distribution发现所有数据倾斜到了dn_6009单个DN，修改分布列使得表存储分布均匀后，max dn time和min dn time基本维持在相同水平400ms左右，Scan时间从6554ms优化到431ms。

点击放大

触发因素：分布式场景，表分布列选择不合理会导致存储倾斜，同时导致DN间压力失衡，单DN I/O压力大，整体I/O效率下降。

解决办法：修改表的分布列使表的存储分布均匀，分布列选择原则参见选择分布列。

场景4：无索引、有索引不走

某一次点查询，Seq Scan扫描需要3767ms，因涉及从4096000条数据中获取8240条数据，符合索引扫描的场景（海量数据中寻找少量数据），在对过滤条件列增加索引后，计划依然是Seq Scan而没有走Index Scan。

点击放大

对目标表ANALYZE后，计划能够自动选择索引，性能从3s+优化到2ms+，极大降低I/O消耗。

点击放大

常见场景：行存大表的查询场景，从大量数据中访问极少数据，没走索引扫描而是走顺序扫描，导致I/O效率低，不走索引常见有两种情况：

过滤条件列上没建索引。
有索引但是计划没选索引扫描。

触发因素：

常用过滤条件列没有建索引。
表中数据因执行DML操作后产生数据变化未及时ANALYZE，导致优化器无法选择索引扫描计划，ANALYZE介绍参见ANALYZE 。

处理方式：

对行存表常用过滤列增加索引，索引基本设计原则：
- 索引列选择distinct值多，且常用于过滤条件，过滤条件多时可以考虑建组合索引，组合索引中distinct值多的列排在前面，索引个数不宜超过3个。
- 大量数据带索引导入会产生大量I/O，如果该表涉及大量数据导入，需严格控制索引个数，建议导入前先将索引删除，导入完成后再重新建索引。
对频繁做DML操作的表，业务中加入及时ANALYZE，主要场景：
- 表数据从无到有。
- 表频繁进行INSERT/UPDATE/DELETE。
- 表数据即插即用，需要立即访问且只访问刚插入的数据。

场景5：无分区、有分区不剪枝

例如某业务表进场使用createtime时间列作为过滤条件获取特定时间数据，对该表设计为分区表后没有走分区剪枝（Selected Partitions数量多），Scan花了701785ms，I/O效率极低。

点击放大

在增加分区键createtime作为过滤条件后，Partitioned scan走分区剪枝（Selected Partitions数量极少），性能从700s优化到10s，I/O效率极大提升。

点击放大

常见场景：按照时间存储数据的大表，查询特征大多为访问当天或者某几天的数据，这种情况应该通过分区键进行分区剪枝（只扫描对应少量分区）来极大提升I/O效率，不走分区剪枝常见的情况有：

未设计成分区表。
设计了分区没使用分区键做过滤条件。
分区键做过滤条件时，对列值有函数转换。

触发因素：未合理使用分区表和分区剪枝功能，导致扫描效率低。

处理方式：

对按照时间特征存储和访问的大表设计成分区表。
分区键一般选离散度高、常用于查询过滤条件中的时间类型的字段。
分区间隔一般参考高频的查询所使用的间隔，需要注意的是针对列存表，分区间隔过小（例如按小时）可能会导致小文件过多的问题，一般建议最小间隔为按天。

场景6：行存表求count值

某行存大表频繁全表count（指不带过滤条件或者过滤条件过滤很少数据的count），其中Scan花费43s，持续占用大量I/O，此类作业并发起来后，整体系统I/O持续100%，触发I/O瓶颈，导致整体性能慢。

点击放大

对比相同数据量的列存表（A-rows均为40960000），列存的Scan只花费14ms，I/O占用极低。

点击放大

触发因素：行存表因其存储方式的原因，全表scan的效率较低，频繁的对大表全表扫描，导致I/O持续占用。

解决办法：

业务侧审视频繁全表count的必要性，降低全表count的频率和并发度。
如果业务类型符合列存表，则将行存表修改为列存表，提高I/O效率。

场景7：行存表求max值

计算某行存表某列的max值，花费了26772ms，此类作业并发起后，整体系统I/O持续100%，触发I/O瓶颈，导致整体性能慢。

点击放大

针对max列增加索引后，语句耗时从26s优化到32ms，极大减少I/O消耗。

点击放大

触发因素：行存表max值逐个scan符合条件的值来计算max，当scan的数据量很大时，会持续消耗I/O。

解决办法：给max列增加索引，凭借btree索引数据有序存储的特征，加速扫描过程，降低I/O消耗。

场景8：大量数据带索引导入

某业务场景数据往DWS同步时，延迟严重，集群整体I/O压力大。

点击放大

后台查看等待视图有大量wait wal sync和WALWriteLock状态，均为xlog同步状态。

点击放大

触发因素：大量数据带索引（一般超过3个）导入（insert/copy/merge into）会产生大量xlog，导致主备同步慢，备机长期Catchup，整体I/O利用率飙高。。

解决方案：

严格控制每张表的索引个数，建议3个以内。
大量数据导入前先将索引删除，导入完成后再重新建索引。

场景9：行存大表首次查询

某业务场景出现备DN持续catchup，I/O压力大，观察某个SQL等待视图在wait wal sync。

点击放大

排查业务发现某查询语句执行时间较长，执行kill命令后恢复。

触发因素：行存表大量数据入库后，首次查询触发page hint产生大量XLOG，触发主备同步慢及大量I/O消耗。

解决措施：

对该类一次性访问大量新数据的场景，修改行存表为列存表。
可关闭wal_log_hints和enable_crc_check参数（不推荐该方式，因故障期间有数据丢失风险）。

场景10：小文件多IOPS高

某业务执行过程中，整个集群IOPS飙高，另外当出现集群故障后，长期Building不成功，IOPS飙高，相关表信息如下：

SELECT relname,reloptions,partcount FROM pg_class c INNER JOIN ( SELECT parentid,count(*) AS partcount FROM pg_partition GROUP BY parentid ) s ON c.oid = s.parentid ORDER BY partcount DESC;

点击放大

触发因素：某业务库大量列存多分区（3000+）的表，导致小文件巨多（单DN文件2000w+），访问效率低，故障恢复Building极慢，同时Building也消耗大量IOPS，反向影响业务性能。

解决办法：

整改列存分区间隔，减少分区个数来降低文件个数。
列存表修改为行存表，行存的存储特征决定其文件个数不会像列存般膨胀严重。

小结

通过前面的场景总结得出，提升I/O使用效率可分为两个维度，即提升I/O的存储效率和计算效率（又称访问效率）。

提升存储效率包括整合小CU、减少脏数据、消除存储倾斜等。
提升计算效率包括分区剪枝、索引扫描等，可根据实际业务场景灵活处理。

父主题： 集群性能

上一篇：列存小CU多导致的性能慢问题

下一篇：高CPU系统性能调优方案

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

降低I/O的处理方案

问题现象

确定I/O瓶颈&识别高I/O的语句

场景1：列存小CU膨胀

场景2：脏数据&数据清理

场景3：表存储倾斜

场景4：无索引、有索引不走

场景5：无分区、有分区不剪枝

场景6：行存表求count值

场景7：行存表求max值

场景8：大量数据带索引导入

场景9：行存大表首次查询

场景10：小文件多IOPS高

小结

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈