更新时间:2024-11-29 GMT+08:00

使用HetuEngine跨源功能

HetuEngine跨源功能简介

出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。

HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
图1 HetuEngine跨源功能示意

关键技术和优势

  • 计算下推:在通过HetuEngine进行跨源协同分析时,为了提升访问效率,HetuEngine从如下所示维度增强了计算下推的能力。
    • Basic Pushed Down类型:Predicate、Projection、Sub-query、Limit。
    • Aggregation Pushed Down类型:Group by、Order by、Count、Sum、Min、Max。
    • Operator Pushed Down类型:<, >、Like、or。
  • 多源异构:协同分析既支持Hive、GaussDB、ClickHouse等结构化数据源,也支持HBase、Elasticsearch等非结构化数据源。
  • 全局元数据:对于非结构化数据源HBase,提供映射表方式将非结构化SCHEMA映射成结构化SCHEMA,实现HetuEngine对HBase的无差别SQL访问;对于数据源信息,提供全局管理。
  • 全局权限控制:数据源的权限均可通过HetuEngine开放给Ranger集中管理,统一控制。

跨源功能使用指导

HetuEngine能够支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面,可通过HSConsole界面快速添加如下数据源,配置数据源前请先参考配置数据源前必读

使用跨源协同分析流程

  1. 参考使用HetuEngine客户端登录HetuEngine客户端。
  2. 注册Hive、HBase、GaussDB A等数据源。
    hetuengine> show catalogs;
      Catalog  
    ----------  
    dws                
    hive         
    hive_dg
    hbase
    system       
    systemremote 
    (6 rows)
  3. 编写SQL进行跨源协同分析。
    select * from hive_dg.schema1.table1 t1 join hbase.schema3.table3 t2 join dws.schema02.table4 t3 on t1.name = t2.item and t2.id = t3.cardNo;