更新时间:2022-12-14 GMT+08:00

HetuEngine跨源功能简介

出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。

HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
图1 HetuEngine跨源功能示意

HetuEngine跨源功能关键技术和优势

  • 计算下推:在通过HetuEngine进行跨源协同分析时,为了提升访问效率,HetuEngine从下表所示维度增强了计算下推的能力。
    表1 HetuEngine计算下推维度

    类型

    内容

    Basic Pushed Down

    Predicate

    Projection

    Sub-query

    Limit

    Aggregation Pushed Down

    Group by

    Order by

    Count

    Sum

    Min

    Max

    Operator Pushed Down

    <, >

    Like

    Or

  • 多源异构:协同分析既支持Hive、GaussDB等结构化数据源,也支持HBase、Elasticsearch等非结构化数据源。
  • 全局元数据:对于非结构化数据源HBase,提供映射表方式将非结构化SCHEMA映射成结构化SCHEMA,实现HetuEngine对HBase的无差别SQL访问;对于数据源信息,提供全局管理。
  • 全局权限控制:数据源的权限均可通过HetuEngine开放给Ranger集中管理,统一控制。