最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
管理指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - 使用DRS将数据导入GaussDB(DWS)
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
性能调优
- 优化查询性能概述
- Query执行流程
- SQL执行计划
- SQL调优指南
- 实际调优案例
- SQL执行troubleshooting
- query_band负载识别
- 常见性能参数调优设计
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
常见问题
- Top问题汇总
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么GaussDB(DWS)自动快照创建很慢，很长时间都没有创建好？
  2. GaussDB(DWS)快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
性能白皮书
- 概述
- 测试结果
  - TPC-H 单并发查询
  - TPC-DS 单并发查询
- 测试方法
- 附录
  - TPC-H测试集
  - TPC-DS测试集
技术白皮书
- DWS产品简介
- DWS支持平台和技术指标
  - 技术指标
- DWS核心技术
- DWS工具
- DWS对外接口
错误码参考
- 8.2.0及以下版本
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
产品术语
更多文档
- 用户指南（阿布扎比区域）
- API参考（阿布扎比区域）
- 开发指南（阿布扎比区域）
- 语法参考（阿布扎比区域）
- 工具指南（阿布扎比区域）
- 错误码参考（阿布扎比区域）
  - 管理控制台错误码
- 用户指南（巴黎区域）
- API参考 (巴黎区域)
- 开发指南（巴黎区域）
- 语法参考（巴黎区域）
- 工具指南（巴黎区域）
- 错误码参考（巴黎区域）
  - 管理控制台错误码
- 用户指南（吉隆坡区域）
- API参考（吉隆坡区域）
- 开发指南（吉隆坡地区）
- 语法参考（吉隆坡地区）
- 工具指南（吉隆坡地区）
- 错误码参考（吉隆坡地区）
  - 管理控制台错误码
性能白皮书
- 性能白皮书(9.1.0.x)
通用参考
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ SQL语法参考/ SQL语法参考(9.1.0.x)/ 函数和操作符/ 位图函数和操作符/ 使用场景

使用场景

更新时间：2024-09-02 GMT+08:00

查看PDF

背景

目前在互联网、教育、游戏等行业都有实时精准营销的需求。通过系统生成用户画像，在营销时通过条件组合筛选用户，快速提取目标群体。例如：

在电商行业中，商家在进行营销活动前，需要根据活动的目的，圈选一批满足特定特征的目标用户群体进行广告推送。
在教育行业中，需要根据学生不同的特征，推送有针对性的练习题目，帮助学生查漏补缺。
在搜索、视频、门户网站中，根据用户关注的热点，推送不同的内容。

这些业务场景都有一些共同的特点：

数据量庞大，运算量极大。
用户规模庞大，标签多，字段多，占用存储空间也多。
圈选的特征条件多样化，很难找到固定索引，如果每个字段一个索引，存储空间又会暴增。
性能要求高，因为实时营销要求秒级响应。
数据更新时效要求高，用户画像几乎要求实时更新。

针对上述业务场景特点，GaussDB(DWS)的roaringbitmap可以高效生成、压缩、解析位图数据，支持最常见的位图聚合操作（与、或、非、异或），满足用户在亿级以上、千万级标签的大数据量下实时精准营销、快速圈选用户的需求。

roaringbitmap使用示例

假设有一张用户浏览网页的流水信息表userinfo，表中的字段如下：

    
       CREATE TABLE userinfo
(userid int,
age int,
gender text,
salary int,
hobby  text
)WITH (orientation=column);

userinfo表中的数据会随着用户信息的变化不断增长，比如用户有多个hobby属性，那么就有多条记录。

如果用户需要筛选出所有“收入大于10000元的男性，年龄大于30岁，爱好钓鱼”的群体，向这些目标群体推送特定的消息。

传统的方法是直接在原表上执行查询，语句如下：

    
       SELECT distinct userid FROM userinfo WHERE salary > 10000 AND age > 30 AND gender ='m' AND hobby ='fishing';

当userinfo表的数据量不大的时候，可以通过在salary，age，gender，hobby列上建立索引来满足需求。但是如果userinfo表的数据量非常大，同时一张表的标签数非常多的时候，上述语句就不能满足诉求，因为如下原因：

需要创建的索引会非常多。
count (distinct)的性能比较差。

这种场景下使用roaringbitmap就会有比较好的效果。

新建一张Roaringbitmap表：

     
        CREATE TABLE userinfoset
( age int,
gender text,
salary int,
hobby  text,
userset roaringbitmap,
PRIMARY KEY(age,gender,salary,hobby)
)WITH (orientation=column);

所有userinfo表中的数据要通过标签列聚合到userinfoset表中。可以采用对全量数据进行聚合的方法（如下命令所示）。也可以采用只对增量数据进行聚合的方法。只对增量数据进行聚合即对含有相同的标签的用户集合放到表的一条记录中，通常可以通过upsert来实现。考虑到其中频繁的update操作可能产生大量的脏数据，因此对增量数据进行聚合的方法，建议将userinfoset表创建为行存表。

     
        INSERT INTO userinfoset
SELECT age, gender, salary, hobby, rb_build_agg(userid)
FROM 
userinfo
GROUP BY age, gender, salary, hobby;

直接查询userinfoset表获得用户筛选信息。

     
        SELECT rb_iterate(rb_or_agg(userset)) FROM userinfoset WHERE salary > 10000 AND age > 30 AND gender ='m' AND hobby ='fishing';

数据进行聚合后的userinfoset的数据量相比源表小了很多，基表scan的性能会快很多，同时基于Roaringbitmap的优势，计算rb_or_agg和rb_iterate的性能也很好，相比传统的方法，性能明显提升。

父主题： 位图函数和操作符

上一篇：Roaring Bitmap聚合函数

下一篇：UUID函数

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

使用场景

背景

roaringbitmap使用示例

意见反馈

文档内容是否对您有帮助？

文档反馈