步骤1:流程设计
本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的运营数据。基于需求分析和业务调研,数据治理业务流程设计如图1所示,后续的数据治理操作均基于本业务流程完成。
需求分析
通过需求分析,可以提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。
- 未建立标准化模型
- 数据字段命名不标准、不规范
- 数据内容不标准,数据质量不可控
- 统计口径不一致,困扰业务决策
- 数据标准化、模型标准化
- 统一统计口径,提供高质量数据报告
- 数据质量监控告警
- 统计每天收入
- 统计某月收入
- 统计不同支付类型收入占比
业务调研
在开始使用DataArts Studio前,您可以通过业务调研,明确业务过程中所需的DataArts Studio组件功能,并分析后续的业务负载情况。
序号 | 收集项 | 需收集信息描述 | 调研结果 | 填写说明 |
|---|---|---|---|---|
1 | 工作空间 | 企业大数据相关部门的组织和关系调查 | 本示例不涉及 | 用于合理规划工作空间,降低空间相互依赖的复杂度 |
各组织部门之间对数据、资源的访问控制 | 本示例不涉及 | 涉及到用户的权限和资源权限控制 | ||
2 | 数据集成 | 有哪些数据源要迁移,数据源版本 | CSV格式的数据,存储于OBS桶 | - |
每种数据源的数据全量数据规模 | 2,114 字节 | - | ||
每种数据源每天的增量数据规模 | 本示例不涉及 | - | ||
迁移目的端数据源种类以及版本 | 迁移到MRS Hive3.1 | - | ||
数据的迁移周期:天、小时、分钟还是实时迁移 | 天 | - | ||
数据源与目的数据源之间的网络带宽 | 100MB | - | ||
数据源和集成工具之间的网络连通性描述 | 本示例不涉及 | - | ||
数据库类迁移,调研表的个数,最大表的规模 | 本示例不涉及,本示例需要从OBS文件迁移到数据库 | 了解数据库迁移的作业规模,了解最大表的迁移时间是否可接受 | ||
文件类迁移,文件的个数,有没有单文件超过TB级文件 | 本示例的CSV文件仅1个,未超过TB级 | - | ||
3 | 数据开发 | 是否需要作业编排调度? | 是 | - |
编排调度会涉及哪些服务,例如MRS、DWS、CDM等? | 本示例涉及DataArts Studio数据集成和数据质量、MRS Hive | 了解作业的场景,用于进一步调查平台能力与客户场景匹配度 | ||
作业数量规模是多少? | 本示例作业数量在20个以内 | 大致了解作业的规模,通常用算子数来描述,可通过表的数量估计 | ||
每日作业调度次数是多少? | 没有特殊要求,次数不限 | 根据DataArts Studio各销售版本的调度限额,确定DataArts Studio的版本 | ||
数据开发人员的数量是多少? | 1个 | - | ||
4 | 数据架构 | 数据现状,有哪些数据源,多少张表? | 本示例的CSV文件仅1个 | 原始端分析, 了解数据来源与整体概况 |
业务需求,有哪些业务,有什么需求, 想要获得什么价值? | 数据标准化、模型标准化,并灵活统计收入情况 | 目的端分析,了解数据治理以及数字化是为了什么 | ||
数据调研,数据概况,数据标准程度,行业标准概况? | 本示例不涉及 | 过程端分析,了解数据治理过程需要做到的标准与质量的遵从 | ||
5 | 数据质量 | 有哪些需求,需要获得什么价值? | 监控数据质量 | 支持更多数据源和更多规则的监控 |
作业数量规模是多少? | 本示例仅1个 | 用户可手动创建几十个作业,也可以在数据架构中配置自动生成数据质量作业。如果调用数据质量监控的创建接口,则可创建超过100个质量作业 | ||
用户的使用场景? | 对DWI层数据进行标准化清洗 | 一般在数据加工前后,对数据的质量通过六大维度的规则进行质量监控,当发现不符合规则的异常数据时向用户发送报警 | ||
6 | 数据目录 | 需要支持哪些数据源? | MRS Hive | - |
数据资产的数量规模有多大? | 本示例表在百级以内 | 最大可支持100w数据表的管理 | ||
元数据采集的调度频率是多少? | 本示例不涉及 | 支持按照小时、天、周为周期运行采集任务 | ||
元数据采集的重要指标包括什么? | 本示例不涉及 | 表名称、字段名称、责任人、描述信息、创建时间等 | ||
标签的使用场景是什么? | 本示例不涉及 | 标签是相关性很强的关键字,帮助用户对资产进行分类和描述,方便用户进行查询 | ||
7 | 数据安全 | 需要对哪些数据源进行访问管理? | 本示例不涉及 | 支持DLI、DWS和Hive等数据源 |
需要支持静态脱敏? | 本示例不涉及 | 支持对DLI、DWS和Hive数据源数据进行静态脱敏 | ||
需要支持动态脱敏? | 本示例不涉及 | 支持对DWS和Hive数据源数据进行动态脱敏 | ||
需要支持数据水印? | 本示例不涉及 | 支持对Hive数据源数据进行数据水印嵌入 | ||
需要支持文件水印? | 本示例不涉及 | 支持对结构化数据文件注入暗水印,支持对非结构化数据文件注入明水印 | ||
需要支持动态水印? | 本示例不涉及 | 支持对Hive和Spark数据源数据配置动态水印策略 | ||
8 | 数据服务 | 需要开放哪些数据源数据? | 本示例不涉及 | 支持DLI、DWS和MySQL等数据源 |
每日数据调用量是多少? | 本示例不涉及 | 若取数逻辑复杂造成数据库响应时间较长,调用量会下降 | ||
每秒数据调用量峰值是多少? | 本示例不涉及 | 根据不同规格和具体的取数逻辑有所增减 | ||
单次数据调用平均时延是多少? | 本示例不涉及 | 数据库响应耗时与用户取数逻辑相关 | ||
是否需要数据访问记录? | 本示例不涉及 | - | ||
数据访问方式,内网还是外网? | 本示例不涉及 | - | ||
数据服务开发人员数量是多少? | 本示例不涉及 | - |


