DataArts Studio支持的数据源

在使用DataArts Studio前，您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖，用于存储原始数据和数据治理过程中的数据，并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎，支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务，也支持对接企业传统数据库，例如MySQL、PostgreSQL等。

DataArts Studio支持的数据源

DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。

数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中，因此支持的数据源范围更广。
数据集成支持的数据源请参见数据集成支持的数据源。注意，如需在数据集成中使用这些数据源，请先在数据集成中创建对应的数据连接，这些数据连接仅限于在数据集成模块中使用。
DataArts Studio其他组件支持的数据源，即为DataArts Studio所支持的数据湖底座。
其他组件支持的数据源如表1所示，数据源的介绍请参见数据源简介。注意，如需在其他组件中使用这些数据源，请先前往DataArts Studio管理中心控制台创建数据连接，这些数据连接不能在数据集成模块中使用。

表1 DataArts Studio其他组件支持的数据源
数据源类型	管理中心	数据开发
数据仓库服务（DWS）	√	√
数据湖探索（DLI）	√	√
MapReduce服务（MRS HBase）	√	×
MapReduce服务（MRS Hive）	√	√
MapReduce服务（MRS Kafka）	√	√
MySQL	√	×
MapReduce服务（MRS Spark）	√	√
云数据库 RDS（MySQL）	√	√
云数据库 RDS（PostgreSQL）	√	√
主机连接	√	√
MapReduce服务（MRS Presto）	√	√

数据源简介

表2 数据源简介
数据源类型	简介
数据仓库服务（DWS）	DWS是基于Shared-nothing分布式架构，具备MPP大规模并行处理引擎，兼容标准ANSI SQL 99和SQL 2003，同时兼容PostgreSQL/Oracle数据库生态，为各行业PB级海量大数据分析提供有竞争力的解决方案。
数据湖探索（DLI）	DLI是完全兼容Apache Spark和Apache Flink生态，实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎，企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等，挖掘和探索数据价值。
MapReduce服务（MRS HBase）	HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。使用MRS HBase可实现海量数据存储，并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新，并支持百万级时序数据查询分析。
MapReduce服务（MRS Hive）	Hive是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。使用MRS Hive可实现TB/PB级的数据分析，快速将线下Hadoop大数据平台（CDH、HDP等）迁移上云，业务迁移 “0”中断，业务代码 “0”改动。
MapReduce服务（MRS Kafka）	MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统，它提供了类似于JMS的特性，但在设计上完全不同，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，如常规的消息收集、网站活性跟踪、聚合统计系统运营数据（监控数据）、日志收集等大量数据的互联网服务的数据收集场景。
MySQL	MySQL是目前最受欢迎的开源数据库之一，其性能卓越，架构成熟稳定，支持流行应用程序，适用于多领域多行业，支持各种WEB应用，成本低，中小企业首选。
MapReduce服务（MRS Spark）	Spark是一个开源的，并行数据处理框架，能够帮助用户简单的开发快速、统一的大数据应用，对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop，Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。
云数据库 RDS	RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。注意，DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。
主机连接	通过主机连接，用户可以在DataArts Studio数据开发中连接到指定的主机，通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息，当主机的连接信息有变化时，只需在主机连接管理中编辑修改，而不需要到具体的脚本或作业中逐一修改。
MapReduce服务（MRS Presto）	Presto是一个开源的用户交互式分析查询的SQL查询引擎，用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。

父主题： 管理中心

上一篇：管理中心

下一篇：创建数据连接

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消