基本概念
DataArts Studio实例
DataArts Studio实例是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提供给用户,用户可以同时创建多个DataArts Studio实例,并分别管理和访问每个DataArts Studio实例。每个DataArts Studio实例具有用户指定的基础计算资源,包含管理中心、数据架构、数据集成、数据开发、数据质量、数据目录和数据服务七个模块。用户可根据业务需要申请相应规格的DataArts Studio实例。
工作空间
工作空间是从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。
工作空间作为成员管理、角色和权限分配的基本单元,每个团队都可具有独立的工作空间。
您只有在加入工作空间并被分配权限后,才可具备管理中心数据开发和数据集成模块的系列操作权限。
成员和角色
成员是被授予工作空间访问或使用权限的。在添加工作空间成员时,您需要同时为添加的成员设置相应的角色。
角色是一组操作权限的集合。不同的角色拥有不同的操作权限,把角色授予成员后,成员即具有了角色的所有权限。每位成员至少要拥有一个角色,并且可以同时拥有多种角色。
数据集成
数据集成给用户提供的最小资源单位,一个数据集成集群运行在一个弹性云服务器之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据。
数据源
即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。
源数据
源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。
数据连接
定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。
并发数
并发数是数据集成作业中,可以从源端并行读取的最大线程数。
脏数据
脏数据是对于业务没有意义或者格式非法的数据。例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。
作业(数据开发)
在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。
节点
节点用于定义对数据执行的操作。例如,使用“MRS Spark”节点可以实现在MRS中执行预先定义的Spark作业。
解决方案
解决方案定位于为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。
资源
用户可以上传自定义的代码或文本文件作为资源,并在节点运行时调用。
表达式
数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发 EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
环境变量
环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。
补数据
手工触发周期方式调度的作业任务,生成过去某时间段内的实例。