DataArts Studio支持的数据源

在使用DataArts Studio前，您需要根据业务场景选择符合需求的云服务或数据库作为数据底座，由数据底座提供存储和计算的能力，DataArts Studio基于数据底座进行一站式数据开发、治理和服务。

DataArts Studio支持的数据源

在本章节中，DataArts Studio支持的数据源是指除数据集成之外其他各组件支持的数据源情况，各组件支持程度各有不同，详情请参见表1。

另外，除数据集成之外其他各组件所使用的数据连接，均来自于管理中心已勾选对应组件的数据连接（只有勾选适用组件后，在相应组件内才能使用对应的连接）。因此如需对接这些数据源，请前往“DataArts Studio控制台 > 管理中心”创建数据连接。

数据集成组件中集成作业支持的数据源与其他组件数据源情况维度不同，因此在数据集成章节内呈现，不在本章节内进行说明。当前集成作业包含CDM作业、离线作业和实时作业三种场景，支持的数据源情况如下：

数据集成（CDM作业）的数据连接在CDM集群中创建，CDM集成作业支持的数据源与CDM集群版本相关，详情请参见数据集成（CDM作业）支持的数据源。
数据集成（离线作业）的数据连接来自于管理中心中适用组件已勾选“数据集成”的数据连接，离线集成作业支持的数据源详情请参见离线集成作业支持的数据源。
数据集成（实时作业）的数据连接来自于管理中心中适用组件已勾选“数据集成”的数据连接，实时集成作业支持的数据源详情请参见实时集成作业支持的数据源。

不同区域支持的数据源情况存在差异，请以控制台显示为准。

表1 DataArts Studio支持的数据源
数据源类型	管理中心	数据架构	数据开发	数据目录^[2]	数据质量^[3]	数据服务	数据安全
数据仓库服务（DWS）	√	√	√	√	√	√	√
数据湖探索（DLI）	√	√	√	√	√	√	√
DataArts Fabric Sql	√	√	×	√	×	×	×
MapReduce服务（MRS HBase）	√	√	√	√	√	√	√
MapReduce服务（MRS Hive）	√	√	√	√	√	√	√
MapReduce服务（MRS Kafka）	√	×	√	×	×	×	√
MapReduce服务（MRS Spark）^[1]	√	√	√	×	√	×	√
MapReduce服务（MRS ClickHouse）	√	√	√	√	√	√	×
MapReduce服务（MRS Hetu）	√	×	√	×	√	√	√
MapReduce服务（MRS Impala）	√	×	√	×	×	×	√
MapReduce服务（MRS Ranger）	√	×	×	×	×	×	√
MapReduce服务（MRS Flink）	√	×	√	√	×	×	×
MapReduce服务（MRS Hudi）	√	×	×	×	×	×	×
MapReduce服务（MRS Presto）	√	×	√	×	×	×	×
MapReduce服务（MRS Doris）	√	√	√	√	×	√	×
OpenSource Clickhouse	√	√	√	√	×	√	×
MySQL	√	√	√	√	√	√	×
PostgreSQL	√	√	√	√	√	√	√
SQL Server	√	×	×	√	×	×	×
达梦数据库DM	√	×	×	√	×	×	×
SAP HANA	√	×	×	×	×	√	×
Open Gauss	√	×	√	√	×	×	×
Oracle	√	√	√	√	√	√	√
GBase	√	√	√	√	√	√	×
实时数据接入 DIS	√	√	√	√	×	×	×
Rest Client	√	×	√	×	×	×	×
主机连接	√	×	√	×	×	×	×
Apache RocketMq	√	√	×	×	×	×	×

当前DataArts Studio不支持对接“Kerberos加密类型”为“aes256-sha2,aes128-sha2”的MRS集群。如需对接MRS集群，请注意“Kerberos加密类型”应为“aes256-sha1,aes128-sha1”。

注释：

[1] MapReduce服务（MRS Spark）：数据架构和数据质量组件通过MRS Spark连接支持MRS Hudi数据源。MRS Hudi作为一种数据格式，元数据存放在Hive中，操作通过Spark进行。因此数据目录通过MRS Hive采集Hudi元数据，数据架构和数据质量通过MRS Spark对Hudi数据源进行治理（数据质量业务指标监控暂不支持Hudi数据源）。

[2] 数据目录：数据目录组件除了上表中列出的数据源外，还支持采集以下数据源的元数据：

关系型数据库，如MySQL/PostgreSQL等（可使用RDS类型连接，采集其元数据）
云搜索服务CSS
图引擎服务GES
对象存储服务OBS
MRS Hudi组件（MRS Hudi作为一种数据格式，元数据存放在Hive中，操作通过Spark进行。在Hudi表开启“同步hive表配置”后，可通过采集MRS Hive元数据的方式采集Hudi表的元数据）

[3] 数据质量：数据质量组件中的质量作业和对账作业功能，不支持对接MRS集群存算分离的场景。

数据源简介

表2 数据源简介
数据源类型	简介
数据仓库服务（DWS）	华为云DWS是基于Shared-nothing分布式架构，具备MPP大规模并行处理引擎，兼容标准ANSI SQL 99和SQL 2003，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。
数据湖探索（DLI）	华为云DLI是完全兼容Apache Spark和Apache Flink生态，实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎，企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等，挖掘和探索数据价值。
DataArts Fabric Sql	华为云DataArts Fabric SQL是全托管Serverless数据平台，秒级弹性分析TB-PB级湖仓数据，免运维，一套SQL即可打通AI与大数据处理。
MapReduce服务（MRS HBase）	HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。使用MRS HBase可实现海量数据存储，并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新，并支持百万级时序数据查询分析。
MapReduce服务（MRS Hive）	Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。使用MRS Hive可实现TB/PB级的数据分析，快速将线下Hadoop大数据平台（CDH、HDP等）迁移上云，业务迁移 “0”中断，业务代码 “0”改动。
MapReduce服务（MRS Kafka）	华为云MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统，它提供了类似于JMS的特性，但在设计上完全不同，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，如常规的消息收集、网站活性跟踪、聚合统计系统运营数据（监控数据）、日志收集等大量数据的互联网服务的数据收集场景。
MapReduce服务（MRS Spark）	Spark是一个开源的并行数据处理框架，能够帮助用户简单地开发快速、统一的大数据应用，对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速计算、写入以及交互式查询的框架。相比于Hadoop，Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。
MapReduce服务（MRS Clickhouse）	ClickHouse是一款开源的面向联机分析处理的列式数据库，其独立于Hadoop大数据体系，最核心的特点是极致压缩率和极速查询性能。同时，ClickHouse支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。当前ClickHouse被广泛地应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域，非常适用于商业智能化应用场景。
MapReduce服务（MRS Hetu）	Hetu是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合，实现海量数据秒级交互式查询；支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。
MapReduce服务（MRS Impala）	Impala直接对存储在HDFS、HBase或对象存储服务（OBS）中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外，Impala还使用与Apache Hive相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue中的Impala查询UI）。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充，Impala不会替代基于MapReduce构建的批处理框架，例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。
MapReduce服务（MRS Ranger）	Ranger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。
MapReduce服务（MRS Hudi）	Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎，提供IUD接口，在HDFS的数据集上提供了插入更新和增量拉取的流原语。 Hudi的元数据存放在Hive中，操作通过Spark进行。
MapReduce服务（MRS Presto）	Presto是一个开源的用户交互式分析查询的SQL查询引擎，用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。
MapReduce服务（MRS Doris）	Doris是一个高性能、实时的分析型数据库，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。因此，Apache Doris能够较好地满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景。
OpenSource Clickhouse	ClickHouse是一款开源的面向联机分析处理的列式数据库，其独立于Hadoop大数据体系，最核心的特点是压缩率和极速查询性能。同时，ClickHouse支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。OpenSource Clickhouse为其开源版本。
云数据库 RDS	华为云RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。
MySQL	MySQL是目前最受欢迎的开源数据库之一，其性能卓越，架构成熟稳定，支持流行应用程序，适用于多领域多行业，支持各种WEB应用，成本低，中小企业首选。
Open Gauss	Open Gauss是一款开源关系型数据库管理系统，旨在为各种场景提供高性能、高可靠、高安全的企业级数据库服务。
ORACLE	ORACLE数据库系统是以分布式数据库为核心的一组软件产品，是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。 ORACLE数据库是目前世界上使用最为广泛的数据库管理系统，作为一个通用的数据库系统，它具有完整的数据管理功能；作为一个关系数据库，它是一个完备关系的产品；作为分布式数据库它实现了分布式处理功能。
GBase	GBase数据库是一款国产高性能、高可靠、高安全的分布式分析型数据库，广泛应用于大数据分析与实时决策支持场景。
实时数据接入 DIS	使用实时数据接入通道，可实现跨空间作业调度。若使用数据通道连接，可以向其他账号的DIS通道发送消息；若不使用，仅能给本账号下所有region的通道发送消息。
Rest Client	通过Rest Client执行一个RESTful请求。目前支持IAM Token、用户名密码两种认证鉴权方式的RESTful请求。
主机连接	通过主机连接，用户可以在DataArts Studio数据开发中连接到指定的主机，通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息，当主机的连接信息有变化时，只需在主机连接管理中编辑修改，而不需要到具体的脚本或作业中逐一修改。
Apache RocketMQ	Apache RocketMQ是一个开源的分布式消息中间件，具有低延迟、高吞吐、高可用和强一致性的特点，广泛用于大规模分布式系统的异步通信与解耦。