文档首页 > > 快速入门> 示例场景说明

示例场景说明

分享
更新时间:2020/10/19 GMT+08:00
本文档是一个DAYU入门教程,旨在介绍如何在DAYU平台完成端到端的全流程数据运营。基于某市的出租车出行数据,使用DAYU实施数据治理。期望通过实施数据治理达到以下目标:
  • 数据标准化、模型标准化
  • 统一统计口径,提供高质量数据报告
  • 数据质量监控告警
  • 统计每天收入
  • 统计某月收入
  • 统计不同支付类型收入占比

流程简介

完成本入门教程所涉及的数据运营流程如下图所示:

图1 DAYU使用流程

本入门指导将参考如表1所示的流程,实现示例场景的数据治理和运营。

表1 DAYU数据运营流程

主流程

说明

子任务

操作指导

步骤1:数据调研

在使用DAYU前,您需要进行现状分析、业务调研和需求分析

-

步骤1:数据调研

步骤2:准备工作

如果您是第一次使用DAYU,请先完成注册华为云账号、购买DAYU实例、创建工作空间等一系列操作。

使用DAYU前的准备

使用DAYU前的准备

获取数据源的连接地址等信息,并确保数据源所在的主机和华为云网络互通。

准备数据源

本示例源端为OBS文件,不涉及

根据业务场景选择符合需求的云服务或数据仓库作为数据湖,用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。

准备数据湖

准备数据湖

在管理中心创建数据连接

创建数据库

创建数据表

步骤3:数据集成

通过DAYU平台将源数据上传或者接入到云上。

  • 批量数据迁移:可以将离线或历史数据迁移到云上。提供同构/异构数据源之间批量数据迁移的服务,支持单表/文件迁移、整库迁移、增量迁移,支持自建和云上的文件系统,关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。
  • 实时数据接入:可以将实时数据接入到云上。

批量数据迁移

  1. 创建访问密钥(AK和SK)
  2. 新建数据迁移的源连接、目的连接
  3. 新建表/文件迁移作业

实时数据接入

本示例不涉及

步骤4:数据资产采集

为了在DAYU平台中对迁移到云上的原始数据层进行管理和监控,必须先对其元数据进行采集并监控。

元数据采集

步骤4:数据资产采集

步骤5:规范设计

规范设计以关系建模、维度建模理论支撑实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。

添加审核人

添加审核人

主题设计

主题设计

码表管理

新建码表并发布

数据标准

新建数据标准并发布

关系建模

关系建模:新建SDI层和DWI层两个模型

维度建模

维度建模:在DWR层新建并发布维度

维度建模:在DWR层新建并发布事实表

维度建模:在DM层新建并发布汇总表

指标设计

指标设计:新建并发布技术指标

步骤6:数据开发

可管理多种大数据服务,提供一站式的大数据开发环境。

使用DAYU数据开发,用户可进行数据管理、数据集成、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

脚本开发

脚本开发

开发批处理作业

开发批处理作业

运维调度

运维调度

步骤7:数据质量监控

对业务指标和数据指标进行监控。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。支持数据的清洗和标准化,能够根据数据标准自动生成清洗和标准化的质量规则。支持周期性的监控和清洗。

业务指标监控

本示例不展开描述。

数据质量监控

查看质量作业

步骤8:数据资产管理

在DAYU数据资产模块中,您可以查看数据地图,还可以对数据资产进行数据权限管理和数据安全管理。

数据地图

查看业务资产和技术资产

数据权限

本示例不涉及

步骤9:数据服务API开发

统一管理对内对外的API服务,提供快速将数据表生成数据API的能力,同时支持将现有的API快速注册到数据服务平台以统一管理和发布。

添加审核人

添加审核人

新建API并发布

创建API并发布API

审核人员审核API

授权/申请权限

添加授权

调用API

调用API

运营管理

本示例不展开描述。

准备数据

假设数据存储在华为云OBS桶中。OBS地址:/dayu-demo-obs/fast-demo/2017_Yellow_Taxi_Trip_Data.csv。

部分样例数据如下。

VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount
2,02/14/2017 04:08:11 PM,02/14/2017 04:21:53 PM,1,0.91,1,N,237,163,2,9.5,1,0.5,0,0,0.3,11.3
2,02/14/2017 04:08:11 PM,02/14/2017 04:19:29 PM,2,1.03,1,N,237,229,1,8.5,1,0.5,2.06,0,0.3,12.36
1,02/14/2017 04:08:12 PM,02/14/2017 04:19:44 PM,1,1.6,1,N,186,163,2,9,1,0.5,0,0,0.3,10.8
1,02/14/2017 04:08:12 PM,02/14/2017 04:19:15 PM,1,1.2,1,N,48,48,2,8.5,1,0.5,0,0,0.3,10.3
2,02/14/2017 04:08:12 PM,02/14/2017 04:13:38 PM,5,0.61,1,N,161,162,1,5.5,1,0.5,2.19,0,0.3,9.49
2,02/14/2017 04:08:12 PM,02/14/2017 05:35:11 PM,1,19.31,2,N,152,132,1,52,4.5,0.5,12.57,5.54,0.3,75.41
1,02/14/2017 04:08:13 PM,02/14/2017 04:20:53 PM,1,1.9,1,N,236,143,1,10.5,1,0.5,1.85,0,0.3,14.15
2,02/14/2017 04:08:13 PM,02/14/2017 04:15:54 PM,1,0.61,1,N,48,164,1,6.5,1,0.5,1.66,0,0.3,9.96
2,02/14/2017 04:08:13 PM,02/14/2017 04:41:40 PM,1,6.04,1,N,244,262,1,25,1,0.5,6.7,0,0.3,33.5
2,02/14/2017 04:08:13 PM,02/14/2017 04:17:31 PM,1,1.39,1,N,170,234,1,8,1,0.5,1,0,0.3,10.8
2,02/14/2017 04:08:14 PM,02/14/2017 04:54:11 PM,2,10.12,1,N,140,189,1,37.5,1,0.5,7,0,0.3,46.3
2,02/14/2017 04:08:14 PM,02/14/2017 04:13:56 PM,1,0.71,1,N,179,7,2,5.5,1,0.5,0,0,0.3,7.3
2,02/14/2017 04:08:14 PM,02/14/2017 05:04:24 PM,1,18.1,2,N,263,132,1,52,4.5,0.5,15.71,5.54,0.3,78.55
2,02/14/2017 04:08:14 PM,02/14/2017 04:08:47 PM,1,0.02,1,N,231,231,2,2.5,1,0.5,0,0,0.3,4.3
2,02/14/2017 04:08:15 PM,02/14/2017 04:18:13 PM,1,1.34,1,N,100,162,1,8,1,0.5,1.2,0,0.3,11
1,02/14/2017 04:08:16 PM,02/14/2017 04:19:01 PM,1,1.8,1,N,239,151,1,9,1,0.5,2.15,0,0.3,12.95
2,02/14/2017 04:08:16 PM,02/14/2017 04:15:57 PM,1,1.06,1,N,68,170,1,6.5,1,0.5,1,0,0.3,9.3
2,02/14/2017 04:08:16 PM,02/14/2017 04:20:08 PM,2,1.5,1,N,161,142,1,9,1,0.5,2.16,0,0.3,12.96
2,02/14/2017 04:08:16 PM,02/14/2017 04:11:56 PM,1,0.62,1,N,87,88,2,4.5,1,0.5,0,0,0.3,6.3
2,02/14/2017 04:08:16 PM,02/14/2017 04:13:20 PM,1,0.88,1,N,262,236,2,5.5,1,0.5,0,0,0.3,7.3

数据说明如下:

表2 出租车行程数据

序号

字段名称

字段描述

1

VendorID

供应商编号

取值如下:

1=A Company

2=B Company

2

tpep_pickup_datetime

上车时间

3

tpep_dropoff_datetime

下车时间

4

passenger_count

乘客人数

5

trip_distance

行驶距离

6

ratecodeid

费率代码

取值如下:

1=Standard rate

2=JFK

3=Newark

4=Nassau or Westchester

5=Negotiated fare

6=Group ride

7

store_fwd_flag

存储转发标识

8

PULocationID

上车地点

9

DOLocationID

下车地点

10

payment_type

付款方式代码

取值如下:

1=Credit card

2=Cash

3=No charge

4=Dispute

5=Unknown

6=Voided trip

11

fare_amount

车费

12

extra

加收

13

mta_tax

MTA税

14

tip_amount

手续费

15

tolls_amount

通行费

16

improvement_surcharge

改善附加费

17

total_amount

总车费

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!非常感谢您的反馈,我们会继续努力做到更好!
反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问