步骤1：流程设计

本入门指南以某市出租车出行数据为例，统计某出租车供应商2017年度的运营数据。基于需求分析和业务调研，数据治理业务流程设计如图1所示，后续的数据治理操作均基于本业务流程完成。

图1 流程设计

需求分析

通过需求分析，可以提炼出数据治理流程的实现框架，支撑具体数据治理实施流程的设计。

在本示例场景下，当前面临的数据问题如下：

未建立标准化模型
数据字段命名不标准、不规范
数据内容不标准，数据质量不可控
统计口径不一致，困扰业务决策

通过DataArts Studio实施数据治理，期望能够达到以下目标：

数据标准化、模型标准化
统一统计口径，提供高质量数据报告
数据质量监控告警
统计每天收入
统计某月收入
统计不同支付类型收入占比

业务调研

在开始使用DataArts Studio前，您可以通过业务调研，明确业务过程中所需的DataArts Studio组件功能，并分析后续的业务负载情况。

表1 业务调研表
序号	收集项	需收集信息描述	调研结果	填写说明
1	工作空间	企业大数据相关部门的组织和关系调查	本示例不涉及	用于合理规划工作空间，降低空间相互依赖的复杂度
1	工作空间	各组织部门之间对数据、资源的访问控制	本示例不涉及	涉及到用户的权限和资源权限控制
2	数据集成	有哪些数据源要迁移，数据源版本	CSV格式的数据，存储于OBS桶	-
		每种数据源的数据全量数据规模	2，114 字节	-
		每种数据源每天的增量数据规模	本示例不涉及	-
		迁移目的端数据源种类以及版本	迁移到MRS Hive3.1	-
		数据的迁移周期：天、小时、分钟还是实时迁移	天	-
		数据源与目的数据源之间的网络带宽	100MB	-
		数据源和集成工具之间的网络连通性描述	本示例不涉及	-
		数据库类迁移，调研表的个数，最大表的规模	本示例不涉及，本示例需要从OBS文件迁移到数据库	了解数据库迁移的作业规模，了解最大表的迁移时间是否可接受
		文件类迁移，文件的个数，有没有单文件超过TB级文件	本示例的CSV文件仅1个，未超过TB级	-
3	数据开发	是否需要作业编排调度？	是	-
		编排调度会涉及哪些服务，例如MRS、DWS、CDM等？	本示例涉及DataArts Studio数据集成和数据质量、MRS Hive	了解作业的场景，用于进一步调查平台能力与客户场景匹配度
		作业数量规模是多少？	本示例作业数量在20个以内	大致了解作业的规模，通常用算子数来描述，可通过表的数量估计
		每日作业调度次数是多少？	没有特殊要求，次数不限	根据DataArts Studio各销售版本的调度限额，确定DataArts Studio的版本
		数据开发人员的数量是多少？	1个	-
4	数据架构	数据现状，有哪些数据源，多少张表？	本示例的CSV文件仅1个	原始端分析，了解数据来源与整体概况
		业务需求，有哪些业务，有什么需求，想要获得什么价值？	数据标准化、模型标准化，并灵活统计收入情况	目的端分析，了解数据治理以及数字化是为了什么
		数据调研，数据概况，数据标准程度，行业标准概况？	本示例不涉及	过程端分析，了解数据治理过程需要做到的标准与质量的遵从
5	数据质量	有哪些需求，需要获得什么价值？	监控数据质量	支持更多数据源和更多规则的监控
		作业数量规模是多少？	本示例仅1个	用户可手动创建几十个作业，也可以在数据架构中配置自动生成数据质量作业。如果调用数据质量监控的创建接口，则可创建超过100个质量作业
		用户的使用场景？	对DWI层数据进行标准化清洗	一般在数据加工前后，对数据的质量通过六大维度的规则进行质量监控，当发现不符合规则的异常数据时向用户发送报警
6	数据目录	需要支持哪些数据源？	MRS Hive	-
		数据资产的数量规模有多大？	本示例表在百级以内	最大可支持100w数据表的管理
		元数据采集的调度频率是多少？	本示例不涉及	支持按照小时、天、周为周期运行采集任务
		元数据采集的重要指标包括什么？	本示例不涉及	表名称、字段名称、责任人、描述信息、创建时间等
		标签的使用场景是什么？	本示例不涉及	标签是相关性很强的关键字，帮助用户对资产进行分类和描述，方便用户进行查询
7	数据安全	需要对哪些数据源进行访问管理？	本示例不涉及	支持DLI、DWS和Hive等数据源
		需要支持静态脱敏？	本示例不涉及	支持对DLI、DWS和Hive数据源数据进行静态脱敏
		需要支持动态脱敏？	本示例不涉及	支持对DWS和Hive数据源数据进行动态脱敏
		需要支持数据水印？	本示例不涉及	支持对Hive数据源数据进行数据水印嵌入
		需要支持文件水印？	本示例不涉及	支持对结构化数据文件注入暗水印，支持对非结构化数据文件注入明水印
		需要支持动态水印？	本示例不涉及	支持对Hive和Spark数据源数据配置动态水印策略
8	数据服务	需要开放哪些数据源数据？	本示例不涉及	支持DLI、DWS和MySQL等数据源
		每日数据调用量是多少？	本示例不涉及	若取数逻辑复杂造成数据库响应时间较长，调用量会下降
		每秒数据调用量峰值是多少？	本示例不涉及	根据不同规格和具体的取数逻辑有所增减
		单次数据调用平均时延是多少？	本示例不涉及	数据库响应耗时与用户取数逻辑相关
		是否需要数据访问记录？	本示例不涉及	-
		数据访问方式，内网还是外网？	本示例不涉及	-
		数据服务开发人员数量是多少？	本示例不涉及	-

父主题： 高级使用者：基于MRS Hive的出租车出行数据治理流程

上一篇：示例场景说明

下一篇：步骤2：数据准备

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试