更新时间:2024-11-12 GMT+08:00

步骤1:流程设计

本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的运营数据。基于需求分析业务调研,数据治理业务流程设计如图1所示,后续的数据治理操作均基于本业务流程完成。

图1 流程设计

需求分析

通过需求分析,可以提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。

在本示例场景下,当前面临的数据问题如下:
  • 未建立标准化模型
  • 数据字段命名不标准、不规范
  • 数据内容不标准,数据质量不可控
  • 统计口径不一致,困扰业务决策
通过DataArts Studio实施数据治理,期望能够达到以下目标:
  • 数据标准化、模型标准化
  • 统一统计口径,提供高质量数据报告
  • 数据质量监控告警
  • 统计每天收入
  • 统计某月收入
  • 统计不同支付类型收入占比

业务调研

在开始使用DataArts Studio前,您可以通过业务调研,明确业务过程中所需的DataArts Studio组件功能,并分析后续的业务负载情况。

表1 业务调研表

序号

收集项

需收集信息描述

调研结果

填写说明

1

工作空间

企业大数据相关部门的组织和关系调查

本示例不涉及

用于合理规划工作空间,降低空间相互依赖的复杂度

各组织部门之间对数据、资源的访问控制

本示例不涉及

涉及到用户的权限和资源权限控制

2

数据集成

有哪些数据源要迁移,数据源版本

CSV格式的数据,存储于OBS桶

-

每种数据源的数据全量数据规模

2,114 字节

-

每种数据源每天的增量数据规模

本示例不涉及

-

迁移目的端数据源种类以及版本

迁移到MRS Hive3.1

-

数据的迁移周期:天、小时、分钟还是实时迁移

-

数据源与目的数据源之间的网络带宽

100MB

-

数据源和集成工具之间的网络连通性描述

本示例不涉及

-

数据库类迁移,调研表的个数,最大表的规模

本示例不涉及,本示例需要从OBS文件迁移到数据库

了解数据库迁移的作业规模,了解最大表的迁移时间是否可接受

文件类迁移,文件的个数,有没有单文件超过TB级文件

本示例的CSV文件仅1个,未超过TB级

-

3

数据开发

是否需要作业编排调度?

-

编排调度会涉及哪些服务,例如MRS、DWS、CDM等?

本示例涉及DataArts Studio数据集成和数据质量、MRS Hive

了解作业的场景,用于进一步调查平台能力与客户场景匹配度

作业数量规模是多少?

本示例作业数量在20个以内

大致了解作业的规模,通常用算子数来描述,可通过表的数量估计

每日作业调度次数是多少?

没有特殊要求,次数不限

根据DataArts Studio各销售版本的调度限额,确定DataArts Studio的版本

数据开发人员的数量是多少?

1个

-

4

数据架构

数据现状,有哪些数据源,多少张表?

本示例的CSV文件仅1个

原始端分析, 了解数据来源与整体概况

业务需求,有哪些业务,有什么需求, 想要获得什么价值?

数据标准化、模型标准化,并灵活统计收入情况

目的端分析,了解数据治理以及数字化是为了什么

数据调研,数据概况,数据标准程度,行业标准概况?

本示例不涉及

过程端分析,了解数据治理过程需要做到的标准与质量的遵从

5

数据质量

有哪些需求,需要获得什么价值?

监控数据质量

支持更多数据源和更多规则的监控

作业数量规模是多少?

本示例仅1个

用户可手动创建几十个作业,也可以在数据架构中配置自动生成数据质量作业。如果调用数据质量监控的创建接口,则可创建超过100个质量作业

用户的使用场景?

对DWI层数据进行标准化清洗

一般在数据加工前后,对数据的质量通过六大维度的规则进行质量监控,当发现不符合规则的异常数据时向用户发送报警

6

数据目录

需要支持哪些数据源?

MRS Hive

-

数据资产的数量规模有多大?

本示例表在百级以内

最大可支持100w数据表的管理

元数据采集的调度频率是多少?

本示例不涉及

支持按照小时、天、周为周期运行采集任务

元数据采集的重要指标包括什么?

本示例不涉及

表名称、字段名称、责任人、描述信息、创建时间等

标签的使用场景是什么?

本示例不涉及

标签是相关性很强的关键字,帮助用户对资产进行分类和描述,方便用户进行查询

7

数据安全

需要对哪些数据源进行访问管理?

本示例不涉及

支持DLI、DWSHive等数据源

需要支持静态脱敏?

本示例不涉及

支持对DLI、DWS和Hive数据源数据进行静态脱敏

需要支持动态脱敏?

本示例不涉及

支持对DWS和Hive数据源数据进行动态脱敏

需要支持数据水印?

本示例不涉及

支持对Hive数据源数据进行数据水印嵌入

需要支持文件水印?

本示例不涉及

支持对结构化数据文件注入暗水印,支持对非结构化数据文件注入明水印

需要支持动态水印?

本示例不涉及

支持对Hive和Spark数据源数据配置动态水印策略

8

数据服务

需要开放哪些数据源数据?

本示例不涉及

支持DLI、DWS和MySQL等数据源

每日数据调用量是多少?

本示例不涉及

若取数逻辑复杂造成数据库响应时间较长,调用量会下降

每秒数据调用量峰值是多少?

本示例不涉及

根据不同规格和具体的取数逻辑有所增减

单次数据调用平均时延是多少?

本示例不涉及

数据库响应耗时与用户取数逻辑相关

是否需要数据访问记录?

本示例不涉及

-

数据访问方式,内网还是外网?

本示例不涉及

-

数据服务开发人员数量是多少?

本示例不涉及

-