更新时间:2023-06-14 GMT+08:00

DataArts Studio支持的数据源

在使用DataArts Studio前,您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖,用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。DataArts Studio集成了丰富的数据引擎,支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服务,也支持对接企业传统数据库,例如MySQL、PostgreSQL等。

DataArts Studio支持的数据源

DataArts Studio支持的数据源可分为“数据集成组件支持的数据源”和“DataArts Studio其他组件支持的数据源”。

  • 数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中,因此支持的数据源范围更广。

    数据集成支持的数据源请参见数据集成支持的数据源。注意,如需在数据集成中使用这些数据源,请先在数据集成中创建对应的数据连接,这些数据连接仅限于在数据集成模块中使用。

  • DataArts Studio其他组件支持的数据源,即为DataArts Studio所支持的数据湖底座。

    其他组件支持的数据源如表1所示,数据源的介绍请参见数据源简介。注意,如需在其他组件中使用这些数据源,请先前往DataArts Studio管理中心控制台创建数据连接,这些数据连接不能在数据集成模块中使用。

表1 DataArts Studio其他组件支持的数据源

数据源类型

管理中心

数据开发

数据仓库服务(DWS)

数据湖探索(DLI)

MapReduce服务(MRS HBase)

×

MapReduce服务(MRS Hive)

MapReduce服务(MRS Kafka)

MySQL

×

MapReduce服务(MRS Spark)

云数据库 RDS(MySQL)

云数据库 RDS(PostgreSQL)

主机连接

MapReduce服务(MRS Presto)

数据源简介

表2 数据源简介

数据源类型

简介

数据仓库服务(DWS)

DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。

数据湖探索(DLI)

DLI是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。

MapReduce服务(MRS HBase)

HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。

使用MRS HBase可实现海量数据存储,并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新,并支持百万级时序数据查询分析。

MapReduce服务(MRS Hive)

Hive是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。

使用MRS Hive可实现TB/PB级的数据分析,快速将线下Hadoop大数据平台(CDH、HDP等)迁移上云,业务迁移 “0”中断,业务代码 “0”改动。

MapReduce服务(MRS Kafka)

MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。

MySQL

MySQL是目前最受欢迎的开源数据库之一,其性能卓越,架构成熟稳定,支持流行应用程序,适用于多领域多行业,支持各种WEB应用,成本低,中小企业首选。

MapReduce服务(MRS Spark)

Spark是一个开源的,并行数据处理框架,能够帮助用户简单的开发快速、统一的大数据应用,对数据进行协处理、流式处理、交互式分析等等。

Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。

云数据库 RDS

RDS是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。

注意,DataArts Studio平台目前仅支持RDS中的MySQL和PostgreSQL数据库。

主机连接

通过主机连接,用户可以在DataArts Studio数据开发中连接到指定的主机,通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息,当主机的连接信息有变化时,只需在主机连接管理中编辑修改,而不需要到具体的脚本或作业中逐一修改。

MapReduce服务(MRS Presto)

Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。

Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。