更新时间:2024-11-29 GMT+08:00
使用HetuEngine跨源功能
HetuEngine跨源功能简介
出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。
HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
图1 HetuEngine跨源功能示意
关键技术和优势
- 计算下推:在通过HetuEngine进行跨源协同分析时,为了提升访问效率,HetuEngine从如下所示维度增强了计算下推的能力。
- Basic Pushed Down类型:Predicate、Projection、Sub-query、Limit。
- Aggregation Pushed Down类型:Group by、Order by、Count、Sum、Min、Max。
- Operator Pushed Down类型:<, >、Like、or。
- 多源异构:协同分析既支持Hive、GaussDB、ClickHouse等结构化数据源,也支持HBase、Elasticsearch等非结构化数据源。
- 全局元数据:对于非结构化数据源HBase,提供映射表方式将非结构化SCHEMA映射成结构化SCHEMA,实现HetuEngine对HBase的无差别SQL访问;对于数据源信息,提供全局管理。
- 全局权限控制:数据源的权限均可通过HetuEngine开放给Ranger集中管理,统一控制。
跨源功能使用指导
HetuEngine能够支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面,可通过HSConsole界面快速添加如下数据源,配置数据源前请先参考配置数据源前必读:
使用跨源协同分析流程
- 参考使用HetuEngine客户端登录HetuEngine客户端。
- 注册Hive、HBase、GaussDB A等数据源。
hetuengine> show catalogs; Catalog ---------- dws hive hive_dg hbase system systemremote (6 rows)
- 编写SQL进行跨源协同分析。
select * from hive_dg.schema1.table1 t1 join hbase.schema3.table3 t2 join dws.schema02.table4 t3 on t1.name = t2.item and t2.id = t3.cardNo;
父主题: 使用HetuEngine