步骤1:流程设计
本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的运营数据。基于需求分析和业务调研,数据治理业务流程设计如图1所示,后续的数据治理操作均基于本业务流程完成。
需求分析
通过需求分析,可以提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。
- 未建立标准化模型
- 数据字段命名不标准、不规范
- 数据内容不标准,数据质量不可控
- 统计口径不一致,困扰业务决策
- 数据标准化、模型标准化
- 统一统计口径,提供高质量数据报告
- 数据质量监控告警
- 统计每天收入
- 统计某月收入
- 统计不同支付类型收入占比
业务调研
在开始使用DataArts Studio前,您可以通过业务调研,明确业务过程中所需的DataArts Studio组件功能,并分析后续的业务负载情况。
序号 |
收集项 |
需收集信息描述 |
调研结果 |
填写说明 |
---|---|---|---|---|
1 |
工作空间 |
企业大数据相关部门的组织和关系调查 |
本示例不涉及 |
用于合理规划工作空间,降低空间相互依赖的复杂度 |
各组织部门之间对数据、资源的访问控制 |
本示例不涉及 |
涉及到用户的权限和资源权限控制 |
||
2 |
数据集成 |
有哪些数据源要迁移,数据源版本 |
CSV格式的数据,存储于OBS桶 |
- |
每种数据源的数据全量数据规模 |
2,114 字节 |
- |
||
每种数据源每天的增量数据规模 |
本示例不涉及 |
- |
||
迁移目的端数据源种类以及版本 |
迁移到MRS Hive3.1 |
- |
||
数据的迁移周期:天、小时、分钟还是实时迁移 |
天 |
- |
||
数据源与目的数据源之间的网络带宽 |
100MB |
- |
||
数据源和集成工具之间的网络连通性描述 |
本示例不涉及 |
- |
||
数据库类迁移,调研表的个数,最大表的规模 |
本示例不涉及,本示例需要从OBS文件迁移到数据库 |
了解数据库迁移的作业规模,了解最大表的迁移时间是否可接受 |
||
文件类迁移,文件的个数,有没有单文件超过TB级文件 |
本示例的CSV文件仅1个,未超过TB级 |
- |
||
3 |
数据开发 |
是否需要作业编排调度? |
是 |
- |
编排调度会涉及哪些服务,例如MRS、DWS、CDM等? |
本示例涉及DataArts Studio数据集成和数据质量、MRS Hive |
了解作业的场景,用于进一步调查平台能力与客户场景匹配度 |
||
作业数量规模是多少? |
本示例作业数量在20个以内 |
大致了解作业的规模,通常用算子数来描述,可通过表的数量估计 |
||
每日作业调度次数是多少? |
没有特殊要求,次数不限 |
根据DataArts Studio各销售版本的调度限额,确定DataArts Studio的版本 |
||
数据开发人员的数量是多少? |
1个 |
- |
||
4 |
数据架构 |
数据现状,有哪些数据源,多少张表? |
本示例的CSV文件仅1个 |
原始端分析, 了解数据来源与整体概况 |
业务需求,有哪些业务,有什么需求, 想要获得什么价值? |
数据标准化、模型标准化,并灵活统计收入情况 |
目的端分析,了解数据治理以及数字化是为了什么 |
||
数据调研,数据概况,数据标准程度,行业标准概况? |
本示例不涉及 |
过程端分析,了解数据治理过程需要做到的标准与质量的遵从 |
||
5 |
数据质量 |
有哪些需求,需要获得什么价值? |
监控数据质量 |
支持更多数据源和更多规则的监控 |
作业数量规模是多少? |
本示例仅1个 |
用户可手动创建几十个作业,也可以在数据架构中配置自动生成数据质量作业。如果调用数据质量监控的创建接口,则可创建超过100个质量作业 |
||
用户的使用场景? |
对DWI层数据进行标准化清洗 |
一般在数据加工前后,对数据的质量通过六大维度的规则进行质量监控,当发现不符合规则的异常数据时向用户发送报警 |
||
6 |
数据目录 |
需要支持哪些数据源? |
MRS Hive |
- |
数据资产的数量规模有多大? |
本示例表在百级以内 |
最大可支持100w数据表的管理 |
||
元数据采集的调度频率是多少? |
本示例不涉及 |
支持按照小时、天、周为周期运行采集任务 |
||
元数据采集的重要指标包括什么? |
本示例不涉及 |
表名称、字段名称、责任人、描述信息、创建时间等 |
||
标签的使用场景是什么? |
本示例不涉及 |
标签是相关性很强的关键字,帮助用户对资产进行分类和描述,方便用户进行查询 |
||
7 |
数据安全 |
需要对哪些数据源进行访问管理? |
本示例不涉及 |
支持DLI、DWS和Hive等数据源 |
需要支持静态脱敏? |
本示例不涉及 |
支持对DLI、DWS和Hive数据源数据进行静态脱敏 |
||
需要支持动态脱敏? |
本示例不涉及 |
支持对DWS和Hive数据源数据进行动态脱敏 |
||
需要支持数据水印? |
本示例不涉及 |
支持对Hive数据源数据进行数据水印嵌入 |
||
需要支持文件水印? |
本示例不涉及 |
支持对结构化数据文件注入暗水印,支持对非结构化数据文件注入明水印 |
||
需要支持动态水印? |
本示例不涉及 |
支持对Hive和Spark数据源数据配置动态水印策略 |
||
8 |
数据服务 |
需要开放哪些数据源数据? |
本示例不涉及 |
支持DLI、DWS和MySQL等数据源 |
每日数据调用量是多少? |
本示例不涉及 |
若取数逻辑复杂造成数据库响应时间较长,调用量会下降 |
||
每秒数据调用量峰值是多少? |
本示例不涉及 |
根据不同规格和具体的取数逻辑有所增减 |
||
单次数据调用平均时延是多少? |
本示例不涉及 |
数据库响应耗时与用户取数逻辑相关 |
||
是否需要数据访问记录? |
本示例不涉及 |
- |
||
数据访问方式,内网还是外网? |
本示例不涉及 |
- |
||
数据服务开发人员数量是多少? |
本示例不涉及 |
- |