更新时间:2024-04-03 GMT+08:00

DataArts Studio支持的数据源

在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务或数据库作为数据湖底座,由数据湖底座提供存储和计算的能力,DataArts Studio基于数据湖底座进行一站式数据开发、治理和服务。

DataArts Studio支持的数据源

DataArts Studio支持对接如DLI、DWS、MRS Hive等云服务,也支持对接如MySQL、Oracle等传统数据库,支持程度各有不同,详情请参见表1

如需对接这些数据源,请前往“DataArts Studio控制台 > 管理中心”创建数据连接。

DataArts Studio管理中心的数据连接用于对接数据湖底座,DataArts Studio基于数据湖底座,提供一站式数据开发、治理和服务等能力。

表1 DataArts Studio支持的数据源

数据源类型

管理中心

数据架构

数据开发

数据目录[2]

数据质量[3]

数据服务

数据仓库服务(DWS)

数据湖探索(DLI)

MapReduce服务(MRS HBase)

×

×

×

×

MapReduce服务(MRS Hive)

×

MapReduce服务(MRS Kafka)

×

×

×

×

MapReduce服务(MRS Spark)[1]

×

×

MapReduce服务(MRS ClickHouse)

×

MapReduce服务(MRS Hetu)

×

×

MapReduce服务(MRS Impala)

×

×

×

×

MapReduce服务(MRS Ranger)

×

×

×

×

×

MapReduce服务(MRS Presto)

×

×

×

×

MapReduce服务(MRS Doris)

×

云数据库 RDS(云数据库MySQL)

云数据库 RDS(云数据库PostgreSQL)

×

MySQL

×

×

Oracle

×

×

实时数据接入 DIS

×

×

×

主机连接

×

×

×

×

注释

[1] 数据目录:数据目录组件除了上表中列出的数据源外,还支持采集以下数据源的元数据:
  1. 关系型数据库,如MySQL/PostgreSQL等(可使用RDS类型连接,采集其元数据)
  2. 云搜索服务CSS
  3. 图引擎服务GES
  4. 对象存储服务OBS
  5. MRS Hudi组件(MRS Hudi作为一种数据格式,元数据存放在Hive中,操作通过Spark进行。在Hudi表开启“同步hive表配置”后,可通过采集MRS Hive元数据的方式采集Hudi表的元数据)

[2] 数据质量:数据质量组件中的质量作业和对账作业功能,不支持对接MRS集群存算分离的场景。

[3] MapReduce服务(MRS Spark):数据架构和数据质量组件通过MRS Spark连接支持MRS Hudi数据源。MRS Hudi作为一种数据格式,元数据存放在Hive中,操作通过Spark进行。因此数据目录通过MRS Hive采集Hudi元数据,数据架构和数据质量通过MRS Spark对Hudi数据源进行治理(数据质量业务指标监控暂不支持Hudi数据源)。

数据源简介

表2 数据源简介

数据源类型

简介

数据仓库服务(DWS)

华为云DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。

数据湖探索(DLI)

华为云DLI是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。

MapReduce服务(MRS HBase)

HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。

使用MRS HBase可实现海量数据存储,并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新,并支持百万级时序数据查询分析。

MapReduce服务(MRS Hive)

Hive是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。

使用MRS Hive可实现TB/PB级的数据分析,快速将线下Hadoop大数据平台(CDH、HDP等)迁移上云,业务迁移 “0”中断,业务代码 “0”改动。

MapReduce服务(MRS Kafka)

华为云MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。

MapReduce服务(MRS Spark)

Spark是一个开源的,并行数据处理框架,能够帮助用户简单的开发快速、统一的大数据应用,对数据进行协处理、流式处理、交互式分析等等。

Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。

MapReduce服务(MRS Clickhouse)

ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是极致压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。

当前ClickHouse被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域,非常适用于商业智能化应用场景。

MapReduce服务(MRS Impala)

Impala直接对存储在HDFS、HBase或对象存储服务(OBS)中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。

MapReduce服务(MRS Ranger)

Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限 。

MapReduce服务(MRS Hudi)

Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。

Hudi的元数据存放在Hive中,操作通过Spark进行。

MapReduce服务(MRS Presto)

Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。

Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。

MapReduce服务(MRS Doris)

Doris是一个高性能、实时的分析型数据库,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。因此,Apache Doris 能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景。

云数据库 RDS

华为云RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。

注意,DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。

MySQL

MySQL是目前最受欢迎的开源数据库之一,其性能卓越,架构成熟稳定,支持流行应用程序,适用于多领域多行业,支持各种WEB应用,成本低,中小企业首选。

ORACLE

ORACLE数据库系统是以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。

ORACLE数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。

实时数据接入 DIS

使用实时数据接入通道,可实现跨空间作业调度。若使用数据通道连接,可以向其他账号的DIS通道发送消息;若不使用,仅能给本账号下所有region的通道发送消息。

Rest Client

通过Rest Client 执行一个RESTful请求目前支持IAM Token、用户名密码两种认证鉴权方式的RESTful请求。

主机连接

通过主机连接,用户可以在DataArts Studio数据开发中连接到指定的主机,通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息,当主机的连接信息有变化时,只需在主机连接管理中编辑修改,而不需要到具体的脚本或作业中逐一修改。