更新时间:2024-11-12 GMT+08:00
分享

示例场景说明

本示例是一个DataArts Studio全流程入门教程,旨在介绍如何在DataArts Studio平台完成端到端的全流程数据运营。

本案例基于某市的出租车出行数据,选择MRS Hive作为数据湖底座,使用DataArts Studio实施全流程数据治理。期望通过实施数据治理达到以下目标:
  • 数据标准化、模型标准化
  • 统一统计口径,提供高质量数据报告
  • 数据质量监控告警
  • 统计每天收入
  • 统计某月收入
  • 统计不同支付类型收入占比

流程简介

本入门指导将参考如表1所示的流程,实现示例场景的数据治理。

表1 DataArts Studio数据治理流程

主流程

说明

子任务

操作指导

步骤1:流程设计

在使用DataArts Studio前,您需要进行业务调研和需求分析设计。

需求分析、业务调研与业务流程设计

需求分析

业务调研

步骤2:数据准备

如果您是第一次使用DataArts Studio,请先完成创建DataArts Studio实例、创建工作空间等一系列操作。

使用DataArts Studio前的准备

准备工作

步骤3:数据集成

通过DataArts Studio平台将源数据上传或者接入到云上。

可以将离线或历史数据集成到云上。提供同构/异构数据源之间数据集成的服务,支持单表/文件迁移、整库迁移、增量集成,支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。

数据集成

创建集群

新建数据迁移的源连接、目的连接

新建表/文件迁移作业

步骤4:元数据采集

为了在DataArts Studio平台中对迁移到云上的原始数据层进行管理和监控,必须先对其元数据进行采集并监控。

元数据采集

采集并监控元数据

步骤5:数据架构设计

数据架构以关系建模、维度建模理论支撑实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

准备工作

添加审核人

管理配置中心

主题设计

主题设计

标准管理

新建码表并发布

新建数据标准并发布

关系建模

数仓规划:新建SDI层和DWI层两个模型

维度建模

维度建模:在DWR层新建并发布维度

维度建模:在DWR层新建并发布事实表

指标设计

指标设计:新建并发布技术指标

数据集市建设

数据集市:在DM层新建并发布汇总表

步骤6:数据开发处理

可管理多种大数据服务,提供一站式的大数据开发环境。

使用DataArts Studio数据开发,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

数据管理

数据管理

脚本开发

脚本开发

作业开发

作业开发

运维调度

运维调度

步骤7:数据质量监控

对业务指标和数据指标进行监控。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的标准化,能够根据数据标准自动生成标准化的质量规则。支持周期性的监控。

业务指标监控

监控业务指标

数据质量监控

查看质量作业

步骤8:数据资产查看

DataArts Studio数据目录模块中,您可以查看数据地图。

数据地图

查看业务资产和技术资产

步骤9:服务退订

进行服务退订,避免持续产生费用。

服务退订

服务退订(可选)

相关文档