实时数仓函数
hstore_light_merge(rel_name text)
描述:该函数用于手动对HStore表进行轻量化清理操作,持有目标表的三级锁。
返回值类型:int
示例:
1
|
SELECT hstore_light_merge('reason_select'); |
hstore_full_merge(rel_name text,partitionName text)
描述:该函数用于手动对HStore表进行全量清理操作,其中第二个入参为可选参数,用于指定单分区进行操作。
返回值类型:int
- 执行该操作会强制将DELTA表上的所有可见操作Merge到主表,然后建一张新的空Delta表, 期间持有该表的八级锁。
- 该操作的耗时长度与DELTA表上的数据量有关,务必打开HStore的清理线程,确保HStore表的及时清理。
- 仅在8.3.0.100及以上集群版本支持第二个可选参数partitionName,因此8.3.0.100及以上集群版本不支持使用call调用此函数(call不支持重载)
示例:
1
|
SELECT hstore_full_merge('reason_select','part1'); |
pgxc_get_small_cu_info(rel_name text, row_count int)
描述:该函数用于获取目标表的小CU信息。其中第二个参数row_count 为可选参数,表示小CU的阈值,存活元组数小于这个值的就会被认为是小CU,默认值200。该函数仅8.2.1.300及以上集群版本支持。
返回值类型:record
返回值:
node_name:DN节点名。
part_name:分区名,非分区表此列为空。
zero_cu_count:0CU的数量。当一个CU中的所有数据都被删除时,称之为0 CU。
small_cu_count:小CU数量。当一个CU中有存活数据且存活数量小于阈值时,称之为小CU。
total_cu_count:总的CU的数量。
sec_part_cu_num:每个二级分区的CU数量。当secondary_part_column被指定时,该列才会显示。该字段仅8.3.0及以上集群版本支持。
需要注意的是,这里的CU是跨列的概念,并非一列一个的CU。
示例:
1 2 3 4 5 6 |
SELECT * FROM pgxc_get_small_cu_info('hs'); node_name | part_name | zero_cu_count | small_cu_count | total_cu_count | sec_part_cu_num -----------+-----------+---------------+----------------+----------------+------------------------------------------ datanode1 | | 0 | 4 | 4 | p1:1 p2:0 p3:1 p4:0 p5:1 p6:0 p7:1 p8:0 datanode2 | | 0 | 4 | 4 | p1:0 p2:1 p3:0 p4:1 p5:0 p6:1 p7:0 p8:1 (2 rows) |
gs_hstore_compaction(rel_name text, row_count int)
描述:该函数用于合并目标表的小CU。其中第二个参数row_count为可选参数,表示小CU的阈值,存活元组数小于这个值的就会被认为是小CU,默认值100。该函数仅8.2.1.300及以上版本支持。
返回值类型:int
返回值:numCompactCU: 合并小CU的数量。
- 这里的CU是跨列的概念,并非一列一个的CU。
- 函数中并不能传入分区名,该函数暂不支持指定单分区。
示例:
1
|
SELECT gs_hstore_compaction('hs',10); |
pgxc_get_hstore_delta_info(rel_name text)
描述:该函数用于获取目标表的delta表信息,包括delta表的大小,insert/delete/update各种类型记录的数量等。该函数仅8.2.1.100及以上集群版本支持。
返回值类型:record
返回值:
node_name:DN节点名。
part_name:分区名,非分区表此列为non partition table。
live_tup:存活的元组数量。
n_ui_type:type 是 ui (小cu合并和upsert走update插入) 的记录的数量。一条ui记录表示一次插入,可以是单插或者批插。该参数仅8.3.0.100及以上版本支持。
n_i_type:type 是 i (insert) 的记录的数量。一条i记录表示一次插入,可以是单插或者批插。
n_d_type:type 是 d (delete) 的记录的数量。一条d记录表示一次删除,可以是单条删或者批量删除。
n_x_type:type 是 x (由update产生的delete) 记录的数量。
n_u_type:type 是 u (轻量化update) 的记录数量。
n_m_type:type 是 m (merge) 的记录数量。
data_size:delta表的总大小(包括delta上的索引与toast数据的大小)。
示例:
1 2 3 4 5 6 7 |
SELECT * FROM pgxc_get_hstore_delta_info('hs_part'); node_name | part_name | live_tup | n_ui_type | n_i_type | n_d_type | n_x_type | n_u_type | n_m_type | data_size -----------+-----------+----------+-----------+----------+----------+----------+----------+----------+----------- dn_1 | p1 | 2 | 0 | 2 | 0 | 0 | 0 | 0 | 8192 dn_1 | p2 | 2 | 0 | 2 | 0 | 0 | 0 | 0 | 8192 dn_1 | p3 | 2 | 0 | 2 | 0 | 0 | 0 | 0 | 8192 (3 rows) |
pgxc_get_binlog_sync_point(rel_name text, slot_name text, checkpoint bool, node_id int)
描述:该函数用于用于从pg_binlog_slots系统表上获取槽位对应的同步点信息,只能对开启binlog或binlog时间戳的表使用。该函数仅9.1.0.200及以上集群版本支持。
返回值类型:record
返回值:
node_name:节点名
node_id:节点id
last_sync_point:上次同步点
latest_sync_point:当前最新同步点
xmin:同步点对应xmin
示例:
1 2 3 4 5 6 |
SELECT * FROM pg_catalog.pgxc_get_binlog_sync_point('hstore_binlog_source', 'slot1', false, 0); node_name | node_id | last_sync_point | latest_sync_point | xmin -----------+-------------+-----------------+-------------------+------- dn_2 | -1051926843 | 0 | 10512 | 10507 dn_1 | -1300059100 | 0 | 10512 | 10508 (2 rows) |
pgxc_get_binlog_changes(rel_name text, node_id int, start_csn bigint, end_csn bigInt)
描述:该函数用于获取目标表在指定DN上指定同步点区间的增量数据(node_id给0表示指定所有DN),只能对开启binlog或binlog时间戳的表使用。该函数仅9.1.0.200及以上集群版本支持。
返回值类型:record
返回值:
gs_binlog_sync_point :同步点
gs_binlog_event_sequence:用于表示同一事务内的先后顺序
gs_binlog_event_type:binlog类型
gs_binlog_timestamp_us:binlog记录的时间戳,对于enable_binlog_timestamp为false的binlog表,该列返回空
value columns:目标表上各个用户字段的数据
示例:
1 2 3 4 5 6 7 8 |
SELECT * FROM pgxc_get_binlog_changes('hstore_binlog_source', 0, 0 , 9999999999); gs_binlog_sync_point | gs_binlog_event_sequence | gs_binlog_event_type | gs_binlog_timestamp_us | c1 | c2 | c3 ----------------------+--------------------------+----------------------+------------------------+-----+----+---- 10516 | 2 | I | 1731570520900211 | 100 | 1 | 1 10517 | 3 | d | 1731570520904425 | 100 | 1 | 1 10518 | 2 | I | 1731570520909055 | 200 | 1 | 1 10519 | 3 | B | 1731570520914102 | 200 | 1 | 1 10519 | 4 | U | 1731570520914154 | 200 | 2 | 1 |
pgxc_register_binlog_sync_point(rel_name text, slot_name text, node_id int, end_csn bigInt, checkpoint bool, xmin bigint)
描述:该函数用于登记同步点,只能对开启binlog或binlog时间戳的表使用。该函数仅9.1.0.200及以上集群版本支持。
返回值类型:int
返回值: 登记成功的节点数量
示例:
1 2 3 4 5 |
SELECT pgxc_register_binlog_sync_point('hstore_binlog_source', 'slot1', 0, 9999999999, false, 100); pgxc_register_binlog_sync_point --------------------------------- 2 (1 row) |
pgxc_consumed_binlog_records(rel_name text, node_id int)
描述:该函数用于获取目标表在指定DN上的消费状态,只能对开启binlog或binlog时间戳的表使用。该函数仅9.1.0.200及以上集群版本支持。
返回值类型:int
返回值:返回0表示目标表的binlog仍没有被消费完毕(包含所有槽位以及checkpoint同步点),返回1表示目标表的binlog被全部消费完毕。
示例:
1 2 3 4 5 |
SELECT * FROM pgxc_consumed_binlog_records('hstore_binlog_source',0); pgxc_consumed_binlog_records ------------------------------ 1 (1 row) |
pgxc_get_binlog_cursor_by_timestamp(rel_name text, timestamp timestampTz, node_id int)
描述:该函数用于获取目标表上指定时间点后的第一个binlog记录的信息,只能对开启binlog时间戳的表使用。
该函数仅9.1.0.200及以上集群版本支持。
返回值类型:record
返回值:
node_name:节点名
node_id:节点id
atest_sync_point:当前最新同步点
binlog_sync_point:时间点后的第一个binlog记录的同步点
binlog_timestamp_us:时间点后的第一个binlog记录的时间戳
binlog_xmin:时间点后的第一个binlog记录的xmin
示例:
1 2 3 4 5 6 |
SELECT * FROM pgxc_get_binlog_cursor_by_timestamp('hstore_binlog_source','2024-11-14 15:48:40.900211+08', 0); node_name | node_id | latest_sync_point | binlog_sync_point | binlog_timestamp_us | binlog_xmin -----------+-------------+-------------------+-------------------+---------------------+------------- dn_2 | -1051926843 | 10532 | 10516 | 1731570520900211 | 10510 dn_1 | -1300059100 | 10532 | 10518 | 1731570520909055 | 10510 (2 rows) |
pgxc_get_binlog_cursor_by_syncpoint(rel_name text, csn int8, node_id int)
描述:该函数用于获取目标表上指定同步点后的第一个binlog记录的信息,只能对开启binlog时间戳的表使用。
该函数仅9.1.0.200及以上集群版本支持。
返回值类型:record
返回值:
node_name:节点名
node_id:节点id
atest_sync_point:当前最新同步点
binlog_sync_point:同步点后的第一个binlog记录的同步点
binlog_timestamp_us:同步点后的第一个binlog记录的时间戳
binlog_xmin:同步点后的第一个binlog记录的xmin
示例:
1 2 3 4 5 6 |
SELECT * FROM pgxc_get_binlog_cursor_by_syncpoint('hstore_binlog_source',10516,0); node_name | node_id | latest_sync_point | binlog_sync_point | binlog_timestamp_us | binlog_xmin -----------+-------------+-------------------+-------------------+---------------------+------------- dn_1 | -1300059100 | 11187 | 10518 | 1731570520909055 | 10510 dn_2 | -1051926843 | 11187 | 10516 | 1731570520900211 | 10510 (2 rows) |
pgxc_get_cstore_dirty_ratio(rel_name text, partition_name)
描述:该函数用于获取各个DN上目标表的cu、delta以及cudesc的脏页率以及大小,仅支持HStore_opt表。
其中partition_name为可选参数,如果传入分区名则只返回该分区对应的信息;如果没传入分区名且是主表时分区表返回所有分区对应的信息。该函数仅9.1.0.100及以上集群版本支持。
返回值类型:record
返回值:
node_name:DN节点名
database_name:表所在数据库名称
rel_name:主表名
part_name:分区名
cu_dirty_ratio:cu文件的脏页率
cu_size:cu文件大小
delta_dirty_ratio:delta表脏页率
delta_size:delta表大小
cudesc_dirty_ratio:cudesc表脏页率
cudesc_size:cudesc表大小
示例:
1 2 3 4 5 6 7 8 |
SELECT * FROM pgxc_get_cstore_dirty_ratio('hs_opt_part'); node_name | database_name | rel_name | partition_name | cu_dirty_ratio | cu_size | delta_dirty_ratio | delta_size | cudesc_dirty_ratio | cudesc_size -----------+---------------+--------------------+----------------+----------------+---------+-------------------+------------+--------------------+------------- dn_1 | postgres | public.hs_opt_part | p1 | 0 | 0 | 0 | 16384 | 0 | 24576 dn_1 | postgres | public.hs_opt_part | p2 | 0 | 0 | 0 | 16384 | 0 | 24576 dn_1 | postgres | public.hs_opt_part | p3 | 0 | 0 | 0 | 16384 | 0 | 24576 dn_1 | postgres | public.hs_opt_part | p4 | 0 | 0 | 0 | 16384 | 0 | 24576 dn_1 | postgres | public.hs_opt_part | other | 0 | 1105920 | 0 | 524288 | 0 | 40960 |