更新时间:2026-01-06 GMT+08:00
分享

StarRocks多源数据能力概述

StarRocks自2.3版本起支持Catalog(数据目录)功能,实现在一套系统内同时维护内、外部数据,方便您轻松访问并查询存储在各类外部源的数据。

StarRocks多源数据原理图

目前StarRocks提供两种类型Catalog:internal catalog和external catalog。

图1 StarRocks多源数据原理图
  • Internal catalog:内部数据目录,用于管理StarRocks所有内部数据。例如,执行CREATE DATABASE和CREATE TABLE语句创建的数据库和数据表都由internal catalog管理。 每个StarRocks集群都有且只有一个internal catalog名为default_catalog。
  • External catalog:外部数据目录,用于连接外部metastore。在StarRocks中,您可以通过external catalog直接查询外部数据,无需进行数据导入或迁移。
  • 使用external catalog查询数据时,StarRocks会用到外部数据源的两个组件:
    • 元数据服务:用于将元数据暴露出来供StarRocks的FE进行查询规划。
    • 存储系统:用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成的查询计划分发给各个BE(或CN)后,各个BE(或CN)会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。

相关文档