更新时间:2025-09-23 GMT+08:00
分享

CloudTable业务选型

CloudTable各组件能力横向对比

表1 组件能力对比

对比项

HBase

ClickHouse

Doris

StarRocks

数据存储

  • 面向列的分布式存储,适合大规模数据集,快速随机访问。
  • 支持结构化、半结构化、非结构化数据。
  • 面向列的数据存储,适用于大数据量的实时分析查询。
  • 支持结构化数据。
  • 面向列的数据存储,适用于大数据量的实时分析查询
  • 支持结构化数据。
  • 面向列的存储,TB-PB级数据量。
  • 支持结构化数据。

数据处理

支持实时更新和插入。

高性能分布式查询引擎,可以执行复杂的聚合操作,但不擅长事务处理。

高性能分布式查询引擎,可以执行复杂的聚合操作,但不擅长事务处理。

高性能分布式查询引擎,适合跨表Join查询,事务支持能力弱。

跨表查询

不擅长。

不擅长

擅长外表和内表Join查询。

擅长Join查询

SQL支持度

不支持SQL语句。

支持复杂的SQL语句操作。

支持复杂的SQL语句操作。

支持复杂SQL语句。

大宽表支持度

支持百万列级的大表。

支持数千列的大宽表查询。

适合数百列的小表查询。

适合数百列的小表查询。

OLTP能力

不支持事务,不具备ACID能力。

不支持事务,不具备ACID能力。

不支持事务,不具备ACID能力。

不支持事务,不具备ACID能力。

索引能力

全局索引、覆盖索引、本地索引、行键索引、列族索引。

稀疏索引、二级索引。

  • 点查索引:前缀索引、排序键。
  • 条数索引:ZoneMap索引、BloomFilter索。

点查索引:前缀索引、排序键。

CloudTable各组件应用场景对比

表2 各组件应用场景对比

对比项

HBase

ClickHouse

Doris

StarRocks

使用场景

  • 实时数据存储和处理:HBase是一个分布式、面向列的开源数据仓库,能够快速地存储海量实时和非实时数据,支持高并发读写操作。
  • 大数据查询分析:HBase可以与大数据处理框架(如Hadoop、Spark)结合使用,提供快速的数据访问能力,适合用于大数据分析场景。
  • 数据仓库:HBase可以作为数据仓库的一部分,用于存储结构化或半结构化数据,支持实时数据查询和分析。
  • 实时数据分析

    应用于低延迟、快速响应的数据分析场景。

    • 日志和监控分析:用于日志聚合和监控数据分析系统。
    • 实时用户行为分析:用户行为数据(如点击、浏览、购买行为等)可以被实时分析,用于产品推荐、用户偏好分析、广告投放优化等。
  • 大规模数据处理

    数据仓库:支持TB甚至PB级别的数据量,常用于构建企业数据平台,通过聚合数据源、分析历史数据,支持企业决策和数据洞察。

  • OLAP(联机分析处理)场景

    具备极高的性能可以处理复杂的聚合、过滤、排序等分析查询。它通过列式存储、数据压缩和查询优化,大幅提高了复杂查询的执行效率。

  • 实时数据分析
    • 数据流处理:Doris可以实时引入和分析数据流,适用于实时监控、实时用户行为分析等场景。
    • 实时仪表盘:Doris适用于构建实时可视化仪表盘,为运营和业务决策提供实时数据支持。
  • 数据仓库
    • OLAP(在线分析处理):Doris支持复杂的OLAP查询,能够处理大规模数据集,提供快速的多维分析和报告生成。
    • ETL处理:Doris支持从各种数据源(如Kafka、Hadoop、MySQL等)快速导入数据,并进行清理、聚合和分析。
  • 多表联邦查询分析

    支持跨数据库的外表和同数据库的内表之间进行Join查询,查询性能优异。

  • 实时数据查询分析
    • 数据实时分析:StarRocks擅长对海量数据进行实时查询分析,适用于用户画像、实时用户行为分析等场景。
    • 实时BI报表:适用于构建实时可视化报表,为运营和业务决策提供实时数据支持。
  • 数据仓库
    • OLAP(在线分析处理):StarRocks擅长复杂的OLAP查询,能够处理大规模数据集,提供快速的多维分析和报告生成。
    • 数据ETL处理:StarRocks支持对数据进行加工处理,按照数据仓库标准进行清理、聚合和分析,生成不同层的维表。
  • 多表联邦查询分析

    支持跨数据库的外表和同数据库的内表之间进行Join查询,查询性能优异。

支持能力

  • 海量数据存储
    • 支持对海量结构化、半结构化、非机构化数据存储。HBase的单表可以有百亿行、百万列,且可以在横向和纵向两个维度插入数据,具有很大的弹性,容量极高。
    • HBase可以通过部署廉价的服务器集群实现大规模数据存储,扩展性极高。
  • 快速随机查询

    适合处理大规模数据集,擅长快速随机访问,支持实时数据更新和插入。

  • NoSQL查询

    HBase适合通过非SQL语句对数据进行查询分析等操作。

  • 超大宽表的数据查询分析

    支持对数千列的大宽表进行数据查询分析,性能在亚秒级。

  • 读多写少

    支持对大宽表的部分列进行读取,每次读取一个达标。数据通过追加或更新批次的方式进行集成。

  • 分布式扩展

    采用分布式架构,具有水平灵活扩展能力。

  • 实时数据导入和查询分析

    支持从Kafka、Hadoop、MySQL等各种数据源进行实时数据导入,支持实时查询分析。

  • 高性能在线多表Join查询分析

    支持对PB级海量数据进行高并发多表Join查询分析,性能在亚秒级,适用于实时分析和业务报表。

  • 分布式扩展

    采用分布式架构,具有水平灵活扩展能力。

  • 灵活的数据模型

    支持多种数据模型和数据类型,满足不同业务场景需求。

  • 实时数据集成和查询分析

    支持从Kafka、Flink、MySQL等各种数据源进行实时数据导入,支持实时查询分析。

  • 高性能在线多表Join查询分析

    支持对PB级海量数据进行高并发多表Join查询分析,性能在亚秒级,适用于实时分析和业务报表。

  • 分布式扩展

    采用分布式架构,节点可灵活扩展。

  • 灵活的数据模型

    支持多种数据模型和数据类型,满足不同业务场景需求。

不推荐能力

  • 不支持OLTP能力

    不具备ACID能力,在点查事务的原子性、一致性、实时性方面,不具备RDS的能力。

  • 不支持SQL语句能力

    不能使用SQL语句来进行数据导入、查询等操作。

  • OLTP能力

    不具备ACID能力,在点查事务的原子性、一致性、实时性方面,不具备RDS的能力。

  • 不适用于高频率、少数据量的数据导入和更新场景

    缺少完整的更新/删除操作,不支持高频率、低延迟地修改或删除已存在数据的能力,仅能用于批量删除或修改数据。

  • 不擅长梳理非结构化数据

    擅长基于SQL语句对结构化数据进行查询分析,不擅长对半结构化和非结构化数据进行处理。

  • 多表Join操作能力弱
  • OLTP能力

    不具备ACID能力,在点查事务的原子性、一致性、实时性方面,不具备RDS的能力。

  • 不适用于高频率、少数据量的数据导入和更新场景

    缺少完整的更新/删除操作,不支持高频率、低延迟地修改或删除已存在数据的能力,仅能用于批量删除或修改数据。

  • 对大宽表的查询分析能力稍弱

    适合中小型数据仓库查询分析,对1000列以上的超宽表的查询分析方面性能稍弱。

  • 不擅长梳理非结构化数据

    擅长基于SQL语句对结构化数据进行查询分析,不擅长对半结构化和非结构化数据进行处理。

  • OLTP能力

    不具备ACID能力,在点查事务的原子性、一致性、实时性方面,不具备RDS的事务能力。

  • 不适用于高频率、少数据量的数据导入和更新场景

    不支持高频率、低延迟地修改或删除已存在数据的能力,仅能用于批量删除或修改数据。

  • 不擅长梳理非结构化数据

    擅长基于SQL语句对结构化数据进行查询分析,不擅长对半结构化和非结构化数据进行处理。

相关文档