最新动态
功能总览
服务公告
- 产品公告
- 产品发布说明
产品介绍
- 图解云数据库GaussDB
- 什么是云数据库GaussDB
- 应用场景
- 常用概念
- 产品优势
- 实例说明
- 数据库实例规格
- 数据库产品类型
- 安全
- 权限管理
- 约束与限制
- GaussDB与其他服务的关系
- 兼容性说明
计费说明
- 计费概述
- 计费项
- 计费模式
- 计费样例
- 变更计费模式
- 续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
快速入门
- 购买并通过界面化工具DAS连接GaussDB实例（推荐）
- 购买并通过gsql连接GaussDB实例
- GaussDB入门实践
用户指南
- 选型建议
- 权限管理
  - 创建用户并授权使用GaussDB
  - 自定义策略
- 购买GaussDB实例
- 连接GaussDB实例
  - GaussDB实例连接方式介绍
  - 通过数据管理服务DAS连接实例
  - 通过gsql连接实例
  - 通过Navicat连接实例
  - 通过DBeaver连接实例
- 数据库迁移
  - GaussDB迁移方案总览
  - 使用DRS将Oracle数据库迁移至GaussDB
  - 使用DRS将MySQL数据库迁移到GaussDB
  - 使用DAS的导出和导入功能迁移GaussDB数据
  - 使用copy to/from命令导出导入数据
  - JDBC中使用COPY命令导出导入数据
  - 使用gs_dump和gs_dumpall命令导出数据
  - 使用gs_restore命令导入数据
  - 使用gs_loader工具导入数据
- 使用数据库
  - 数据库使用概述
  - 创建GaussDB数据库
  - 创建GaussDB数据库用户
- 实例管理
  - 查看GaussDB实例总览
  - 设置GaussDB实例安全组规则
  - 绑定和解绑GaussDB实例弹性公网IP
  - 设置GaussDB实例回收站策略
  - 导出GaussDB实例列表
  - 退订GaussDB包周期实例
  - 停止GaussDB实例
  - 启动GaussDB实例
  - 重启GaussDB实例
  - 删除GaussDB按需实例
  - 重建GaussDB实例
  - 停止GaussDB节点
  - 启动GaussDB节点
  - 重启GaussDB节点
- 变更实例
  - 修改GaussDB实例名称
  - 修改GaussDB数据库端口
  - 修改M兼容端口
  - 变更GaussDB实例的CPU和内存规格
  - 只读节点变更
  - 同步数据至单副本实例
  - 查看并修改高级特性
  - 扩容和缩容实例
  - 扩容磁盘
  - 变更部署形态
  - DN主备倒换
- 版本升级
  - 版本升级概述
  - 热补丁升级
  - 就地升级
  - 灰度升级
- 插件管理
  - 插件安装
  - 开启或关闭插件开关
  - 查看拓展功能模块
- 数据备份
  - 备份概述
  - 执行备份
  - 管理备份
- 数据恢复
  - GaussDB数据误操作恢复方案
  - 通过备份文件恢复GaussDB实例
  - 通过备份文件恢复GaussDB库/表
  - 恢复GaussDB实例到指定时间点
  - 恢复GaussDB库/表到指定时间点
- 参数管理
  - 数据库实例支持修改的参数
  - 修改GaussDB实例参数
  - 查看GaussDB实例参数修改历史
  - 导出GaussDB实例参数
  - 创建GaussDB实例参数模板
  - 管理GaussDB实例参数模板
- 监控与告警
  - GaussDB支持的监控指标
  - 查看GaussDB监控指标
  - 查看GaussDB监控大盘
  - 创建GaussDB实例告警规则
  - 事件监控
- 日志与审计
  - 下载GaussDB错误日志和慢日志
  - 下载GaussDB强切日志
  - 在CTS查看GaussDB实例审计日志
  - 对接LTS并查看数据库审计日志
- 配额调整
  - 调整GaussDB云服务资源配额
  - 调整企业项目下的GaussDB资源配额
- SQL诊断
  - 配置SQL限流
- 容灾管理
  - 约束限制
  - 创建容灾任务
  - 查询容灾任务
  - 容灾升主
  - 结束容灾
  - 删除容灾任务
  - 主实例故障后重建灾备任务
  - 容灾主备关系切换
  - 容灾回切
  - 灾备实例容灾演练
  - 主实例日志保持
  - 灾备实例限制说明
- GaussDB任务管理
- GaussDB标签管理
- 重置GaussDB实例管理员密码
开发指南
- 开发指南（分布式_V2.0-8.x）
- 开发指南（集中式_V2.0-8.x）
- 开发指南（分布式_V2.0-3.x）
- 开发指南（集中式_V2.0-3.x）
- 开发指南（分布式_V2.0-2.x）
- 开发指南（集中式_V2.0-2.x）
工具参考
- 工具参考（分布式_V2.0-8.x）
  - 数据库连接工具
    - gsql连接数据库
  - 数据导入导出工具
- 工具参考（集中式_V2.0-8.x）
  - 数据库连接工具
    - gsql连接数据库
  - 数据导入导出工具
- 工具参考（分布式_V2.0-3.x）
- 工具参考（集中式_V2.0-3.x）
  - gsql
  - gs_loader
- 工具参考（分布式_V2.0-2.x）
- 工具参考（集中式_V2.0-2.x）
  - gsql
  - gs_loader
特性指南
- 特性指南（分布式_V2.0-8.x）
- 特性指南（集中式_V2.0-8.x）
- 特性指南（分布式_V2.0-3.x）
- 特性指南（集中式_V2.0-3.x）
最佳实践
- GaussDB安全配置建议
- 扩缩容最佳实践
- 备份恢复最佳实践
性能白皮书
- 测试方法
- 测试数据
API参考
- 使用前必读
- API概览
- 如何调用API
- API（推荐）
- 历史API
- 权限策略和授权项
  - 策略及授权项说明
  - GaussDB授权分类
- 附录
SDK参考
- SDK概述
场景代码示例
常见问题
- 产品咨询
- GaussDB资源冻结/解冻/释放/删除/退订
- 资源及磁盘管理
- 数据库连接
- 数据库存储
  1. 数据超过了GaussDB实例的最大存储容量怎么办
  2. 如何查看GaussDB的存储空间使用情况
- 数据库基本使用
- 备份与恢复
- 数据库监控
  1. GaussDB实例的哪些监控指标需要重点关注
  2. GaussDB实例内存使用率指标的计算方法
- 扩容及规格变更
  1. GaussDB实例在扩容和规格变更期间是否一直可用
- 数据库参数修改
- 日志管理
  1. 如何查看GaussDB执行过的所有SQL日志
  2. 如何查看GaussDB数据库的死锁日志
- 网络安全
  1. 如何防止任意源连接GaussDB数据库
  2. 将根证书导入Windows/Linux操作系统
兼容性参考
- 与Oracle兼容性参考（分布式）
- 与Oracle兼容性参考（集中式）
- 与MySQL兼容性参考（分布式）
- 与MySQL兼容性参考（集中式）
视频帮助
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 云数据库 GaussDB/ 开发指南（分布式_V2.0-2.x）/ SQL参考/ 数据类型/ HLL数据类型

HLL数据类型

更新时间：2025-03-08 GMT+08:00

查看PDF

HLL（HyperLoglog）是统计数据集中唯一值个数的高效近似算法。它有着计算速度快、节省空间的特点，不需要直接存储集合本身，而是存储一种名为HLL的数据结构。每当有新数据加入进行统计时，只需要把数据经过哈希计算并插入到HLL中，最后根据HLL就可以得到结果。

HLL与其他算法的比较请参见表1。

表1 HLL与其他算法比较
项目	Sort算法	Hash算法	HLL
时间复杂度	O(nlogn)	O(n)	O(n)
空间复杂度	O(n)	O(n)	log(logn)
误差率	0	0	≈0.8%
所需存储空间	原始数据大小	原始数据大小	默认规格下最大16KB

HLL在计算速度和所占存储空间上都占优势。在时间复杂度上，Sort算法需要排序至少O(nlogn)的时间，虽说Hash算法和HLL一样扫描一次全表O(n)的时间就可以得出结果，但是存储空间上，Sort算法和Hash算法都需要先把原始数据存起来再进行统计，会导致存储空间消耗巨大，而对HLL来说不需要存原始数据，只需要维护HLL数据结构，故占用空间有很大的压缩，默认规格下HLL数据结构的最大空间约为16KB。

须知：

当前默认规格下可计算最大distinct值的数量约为1.1e+15个，误差率为0.8%。用户应注意如果计算结果超过当前规格下distinct最大值会导致计算结果误差率变大，或导致计算结果失败并报错。
用户在首次使用该特性时，应该对业务的distinct value做评估，选取适当的配置参数并做验证，以确保精度符合要求：
- 当前默认参数下，可以计算的distinct值为1.1e+15，如果计算得到的distinct值为NaN，需要调整log2m，或者采用其他算法计算distinct值。
- 虽然hash算法存在极低的hash collision概率，但是建议用户在首次使用时，选取2-3个hash seed验证，如果得到的distinct value相差不大，则可以从该组seed中任选一个作为hash seed。

HLL中主要的数据结构，请参见表2。

表2 HyperLogLog中主要数据结构
数据类型	功能描述
hll	hll头部为27字节长度字段，默认规格下数据段长度0~16KB，可直接计算得到distinct值。

创建HLL数据类型时，可以支持0~4个参数入参，具体的参数含义与参数规格同函数hll_empty一致。第一个参数为log2m，表示分桶数的对数值，取值范围10~16；第二个参数为log2explicit，表示Explicit模式的阈值大小，取值范围0~12；第三个参数为log2sparse，表示Sparse模式的阈值大小，取值范围0~14；第四个参数为duplicatecheck，表示是否启用duplicatecheck，取值范围为0~1。当入参输入值为-1时，会采用默认值设定HLL的参数。可以通过\d或\d+查看HLL类型的参数。

说明：

创建HLL数据类型时，根据入参的行为不同，结果不同：

创建HLL类型时对应入参不输入或输入-1，采用默认值设定对应的HLL参数。
输入合法范围的入参，对应HLL参数采用输入值。
输入不合法范围的入参，创建HLL类型报错。

   
    
      
      -- 创建hll类型的表，不指定入参。
openGauss=# CREATE TABLE t1 (id integer, set hll);
openGauss=# \d t1
      Table "public.t1"
 Column |  Type   | Modifiers
--------+---------+-----------
 id     | integer |
 set    | hll     |

-- 创建hll类型的表，指定前两个入参，后两个采用默认值。
openGauss=# CREATE TABLE t2 (id integer, set hll(12,4));
openGauss=# \d t2
          Table "public.t2"
 Column |      Type      | Modifiers
--------+----------------+-----------
 id     | integer        |
 set    | hll(12,4,12,0) |

--创建hll类型的表，指定第三个入参，其余采用默认值。
openGauss=# CREATE TABLE t3(id int, set hll(-1,-1,8,-1));
openGauss=# \d t3
          Table "public.t3"
 Column |      Type      | Modifiers
--------+----------------+-----------
 id     | integer        |
 set    | hll(14,10,8,0) |

--创建hll类型的表，指定入参不合法报错。
openGauss=# CREATE TABLE t4(id int, set hll(5,-1));
ERROR:  log2m = 5 is out of range, it should be in range 10 to 16, or set -1 as default

--删除已创建的hll类型的表。
openGauss=# DROP TABLE t1,t2,t3;
DROP TABLE

     

   
  

说明：

对含有HLL类型的表插入HLL对象时，HLL类型的设定参数须同插入对象的设定参数一致，否则报错。

   
      -- 创建带有hll类型的表。
openGauss=# CREATE TABLE t1(id integer, set hll(14));
 
-- 向表中插入hll对象,参数一致，成功。
openGauss=# INSERT INTO t1 VALUES (1, hll_empty(14,-1));

-- 向表中插入hll对象，参数不一致，失败。
openGauss=# INSERT INTO  t1(id, set) VALUES (1, hll_empty(14,5));
ERROR:  log2explicit does not match: source is 5 and dest is 10

-- 删除表。
openGauss=# DROP TABLE t1;

HLL的应用场景。

场景1：“Hello World”

通过下面的示例说明如何使用hll数据类型：

     
        -- 创建带有hll类型的表。
openGauss=# CREATE TABLE helloworld (id integer, set hll);
 
-- 向表中插入空的hll。
openGauss=# INSERT INTO  helloworld(id, set) VALUES (1, hll_empty());
 
-- 把整数经过哈希计算加入到hll中。
openGauss=# UPDATE helloworld SET set = hll_add(set, hll_hash_integer(12345)) WHERE id = 1;

-- 把字符串经过哈希计算加入到hll中。
openGauss=# UPDATE helloworld SET set = hll_add(set, hll_hash_text('hello world')) WHERE id = 1;
 
-- 得到hll中的distinct值。
openGauss=# SELECT hll_cardinality(set) FROM helloworld WHERE id = 1;
 hll_cardinality 
-----------------
               2
(1 row)

-- 删除表。
openGauss=# DROP TABLE helloworld;

场景2：“网站访客数量统计”

通过下面的示例说明hll如何统计在一段时间内访问网站的不同用户数量：

     
      
        
        -- 创建原始数据表，表示某个用户在某个时间访问过网站。
openGauss=# CREATE TABLE facts (
         date            date,
         user_id         integer
);
 
-- 构造数据，表示一天中有哪些用户访问过网站。
openGauss=# INSERT INTO  facts VALUES ('2019-02-20', generate_series(1,100));
openGauss=# INSERT INTO  facts VALUES ('2019-02-21', generate_series(1,200));
openGauss=# INSERT INTO  facts VALUES ('2019-02-22', generate_series(1,300));
openGauss=# INSERT INTO  facts VALUES ('2019-02-23', generate_series(1,400));
openGauss=# INSERT INTO  facts VALUES ('2019-02-24', generate_series(1,500));
openGauss=# INSERT INTO  facts VALUES ('2019-02-25', generate_series(1,600));
openGauss=# INSERT INTO  facts VALUES ('2019-02-26', generate_series(1,700));
openGauss=# INSERT INTO  facts VALUES ('2019-02-27', generate_series(1,800));
 
-- 创建表并指定列为hll。
openGauss=# CREATE TABLE daily_uniques (
    date            date UNIQUE,
    users           hll
);
 
-- 根据日期把数据分组，并把数据插入到hll中。
openGauss=# INSERT INTO  daily_uniques(date, users)
    SELECT date, hll_add_agg(hll_hash_integer(user_id))
    FROM facts
    GROUP BY 1;
 
-- 计算每一天访问网站不同用户数量。
openGauss=# SELECT date, hll_cardinality(users) FROM daily_uniques ORDER BY date;
    date    | hll_cardinality
------------+------------------
 2019-02-20 |              100
 2019-02-21 | 200.217913059312
 2019-02-22 |  301.76494508014
 2019-02-23 | 400.862858326446
 2019-02-24 | 502.626933349694
 2019-02-25 | 601.922606454213
 2019-02-26 | 696.602316769498
 2019-02-27 | 798.111731634412
(8 rows)
 
-- 计算在2019.02.20到2019.02.26一周中有多少不同用户访问过网站。
openGauss=# SELECT hll_cardinality(hll_union_agg(users)) FROM daily_uniques WHERE date >= '2019-02-20'::date AND date <= '2019-02-26'::date;
 hll_cardinality  
------------------
 696.602316769498
(1 row)
 
-- 计算昨天访问过网站而今天没访问网站的用户数量。
openGauss=# SELECT date, (#hll_union_agg(users) OVER two_days) - #users AS lost_uniques FROM daily_uniques WINDOW two_days AS (ORDER BY date ASC ROWS 1 PRECEDING);                                                                                                             
    date    | lost_uniques
------------+--------------
 2019-02-20 |            0
 2019-02-21 |            0
 2019-02-22 |            0
 2019-02-23 |            0
 2019-02-24 |            0
 2019-02-25 |            0
 2019-02-26 |            0
 2019-02-27 |            0
(8 rows)

-- 删除表。
openGauss=# DROP TABLE facts;
openGauss=# DROP TABLE daily_uniques;

       

     
    

场景3：“插入数据不满足hll数据结构要求”

当用户给hll类型的字段插入数据的时候，必须保证插入的数据满足hll数据结构要求，如果解析后不满足就会报错。如下示例中：插入数据'E\\1234'时，该数据不满足hll数据结构要求，不能解析成功因此失败报错。

     
        openGauss=# CREATE TABLE test(id integer, set hll);
openGauss=# INSERT INTO  test VALUES(1, 'E\\1234');
ERROR:  not a hll type, size=6 is not enough

openGauss=# DROP TABLE test;

父主题： 数据类型

上一篇：JSON/JSONB类型

下一篇：范围类型

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

HLL数据类型

相关文档

意见反馈

文档内容是否对您有帮助？

文档反馈