基本概念
数据库、数据仓库、数据湖与华为智能数据湖方案
DataArts Studio实例
DataArts Studio实例是数据治理中心给用户提供的最小计算资源单位。数据治理中心以DataArts Studio实例的方式提供给用户,用户可以同时创建多个DataArts Studio实例,并分别管理和访问每个DataArts Studio实例。每个DataArts Studio实例具有用户指定的基础计算资源,包含管理中心、数据架构、数据集成、数据开发、数据质量、数据目录等组件。用户可根据业务需要申请相应规格的DataArts Studio实例。
工作空间
工作空间是从系统层面为管理者提供对使用DataArts Studio的用户(成员)权限、资源、DataArts Studio底层计算引擎配置的管理能力。
工作空间作为成员管理、角色和权限分配的基本单元,每个团队都可具有独立的工作空间。
您只有在加入工作空间并被分配权限后,才可具备管理中心、数据目录、数据质量、数据架构、数据服务、数据开发和数据集成等组件的操作权限。
成员和角色
成员是被授予工作空间访问或使用权限的华为账号。在添加工作空间成员时,您需要同时为添加的成员设置相应的角色。
角色是一组操作权限的集合。不同的角色拥有不同的操作权限,把角色授予成员后,成员即具有了角色的所有权限。每位成员至少要拥有一个角色,并且可以同时拥有多种角色。
数据集成集群
一个数据集成集群运行在一个弹性云服务器之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据。
数据源
即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。
源数据
源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接复制源文件的“副本数据”。
数据连接
定义访问数据实体存储(计算)空间所需的信息的集合,包括连接类型、名称和登录信息等。
并发数
并发数是数据集成作业中,可以从源端并行读取的最大线程数。
脏数据
脏数据是对于业务没有意义或者格式非法的数据。例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。
作业(数据开发)
在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。
节点
节点用于定义对数据执行的操作。例如,使用“MRS Spark”节点可以实现在MRS中执行预先定义的Spark作业。
解决方案
解决方案定位于为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。
资源
用户可以上传自定义的代码或文本文件作为资源,并在节点运行时调用。
表达式
数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
环境变量
环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。
补数据
手工触发周期方式调度的作业任务,生成过去某时间段内的实例。
数据治理
数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
数据调研
基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。
主题设计
通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
主题域分组
基于业务场景对主题域分组。
主题域
互不重叠数据的高层面的数据分类,用于管理其下一级的业务对象。
业务对象
指企业运作和管理中不可缺少的重要人、事、物信息。
流程设计
流程设计是针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。
数据标准
数据标准用于描述公司层面需共同遵守的数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
码表
通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。
数仓规划
数据架构默认的数仓分层包含SDI、DWI、DWR、DM(Data Mart)等4层,支持用户自定义数仓分层。数仓规划对数仓分层以及数仓模型进行统一管理。
SDI
Source Data Integration (SDI)又称贴源数据层。SDI是源系统数据的简单落地。
DWI
Data Warehouse Integration (DWI)又称数据整合层。DWI整合多个源系统数据,源系统进来数据会有整合、清洗,基于三范式关系建模。
DWR
Data Warehouse Report (DWR)又称数据报告层。 DWR基于多维模型,和DWI层数据粒度保持一致。
DM
Data Mart (DM) 又称数据集市。DM面向展现层,数据有多级汇总。
关系建模
关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。
维度建模
维度建模是从分析决策的需求出发构建多维模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。
多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。
在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,构建总线矩阵、抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,构建出汇总模型。
指标(数据架构)
指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
度量
度量是用于衡量业务状况的可量化的数值表现,通常为数字,如:金额、数量、周期等。指标与度量的关系:度量是一个数值型数据,其本身不带有业务含义,只有将度量放在业务语境下,方能体现出业务含义,才能成为指标。
维度
维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。多数维度具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容)。
原子指标
原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑衍生指标的敏捷自助消费。如:零售门店数量(包含门店名称、门店等级等属性)。
衍生指标
衍生指标是原子指标通过添加口径/修饰词、维度卷积而成,口径/修饰词、维度均来源于原子指标中的属性。例如:促销员门店覆盖率。
复合指标
复合指标由一个或多个衍生指标叠加计算而成,其中的维度、口径/修饰词均继承于衍生指标(不能脱离衍生指标维度和口径/修饰词的范围,去产生新的维度和口径/修饰词)。
数据质量规则
不符合业务实质、不满足数据应用要求的数据判断逻辑。
数据资产
由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。在企业中并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
数据地图
以数据搜索为核心,通过可视化方式,综合反映有关数据来源、数量、分布、标准、流向、关联关系、数据质量。让用户找到数据、读懂数据、消费数据,致力于为用户提供高效率的数据消费产品。
元数据
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。元数据包括元数据实体和元数据元素。元数据元素是元数据的基本单元,若干个相关的元数据元素构成了元数据实体。
在DataArts Studio中,元数据是数据的描述数据,可以为数据说明其属性(数据连接、类型、名称、大小等),或其相关数据(位于拥有者、标签、分类、密级等)。
元数据采集
支持创建自定义策略的采集任务,采集数据源中的技术元数据。
数据资产报告
数据资产总览与统计信息展示。
数据服务
数据服务是基于数据分发、发布的框架,将数据作为一种服务产品提供,满足客户的实时数据需求,能复用并符合企业和工业标准,兼顾数据共享和安全。
API网关
API网关(API Gateway)提供API托管服务,涵盖API发布、管理、运维、售卖的全生命周期管理。帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。