数据架构示例
DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。
- 对MRS Hive数据湖中的出租车出行数据进行数据模型设计。
- 数据库demo_sdi_db中已具备出租车出行原始数据表sdi_taxi_trip_data。
- 原始数据表sdi_taxi_trip_data的数据字段介绍如下:
数据说明如下:
表1 出租车行程数据 序号
字段名称
字段描述
1
VendorID
供应商编号
取值如下:
1=A Company
2=B Company
2
tpep_pickup_datetime
上车时间
3
tpep_dropoff_datetime
下车时间
4
passenger_count
乘客人数
5
trip_distance
行驶距离
6
ratecodeid
费率代码
取值如下:
1=Standard rate
2=JFK
3=Newark
4=Nassau or Westchester
5=Negotiated fare
6=Group ride
7
store_fwd_flag
存储转发标识
8
PULocationID
上车地点
9
DOLocationID
下车地点
10
payment_type
付款方式代码
取值如下:
1=Credit card
2=Cash
3=No charge
4=Dispute
5=Unknown
6=Voided trip
11
fare_amount
车费
12
extra
加收
13
mta_tax
MTA税
14
tip_amount
手续费
15
tolls_amount
通行费
16
improvement_surcharge
改善附加费
17
total_amount
总车费
数据架构的流程如下:
- 准备工作:
- 数据调研:基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。
- 主题设计:通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
- 流程设计:本例暂不涉及。流程设计是针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。
- 标准设计:新建码表和数据标准。
- 模型设计:应用关系建模和维度建模的方法,进行分层建模。
- 数仓规划:新建SDI层和DWI层两个模型。
- SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。
- DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。
- 维度建模:在DWR层新建并发布维度&维度建模:在DWR层新建并发布事实表。
- DWR:Data Warehouse Report,又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。
- 维度:维度是用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。
- 事实表:归属于某个业务过程的事实逻辑表,可以丰富具体业务过程所对应事务的详细信息。
- 数仓规划:新建SDI层和DWI层两个模型。
- 指标设计:新建并发布技术指标:新建业务指标(本例不涉及)和技术指标,技术指标又分为原子指标、衍生指标和复合指标。
- 指标:指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。
- 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。
原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑指标的敏捷自助消费。
- 衍生指标:是原子指标通过添加限定、维度卷积而成,限定、维度均来源于原子指标关联表的属性。
- 复合指标:由一个或多个衍生指标叠加计算而成,其中的维度、限定均继承于衍生指标。
注意,不能脱离衍生指标、维度和限定的范围,去产生新的维度和限定。
- 指标:指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
- 数据集市:在DM层新建并发布汇总表。
- DM (Data Mart):又称数据集市。DM面向展现层,数据有多级汇总。
- 汇总表:汇总表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。
添加审核人
在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。 Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。
- 选择审核人(工作空间管理员、开发者、自定义角色审批),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。
您也可以添加自己当前账号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。图1 添加审核人
管理配置中心
- 在数据架构控制台,单击左侧菜单栏的“配置中心”,进入配置中心页面。
- 进入“功能配置”页签,如下图所示,设置“模型设计业务流程步骤”。
图2 功能配置
- 单击“确定”完成配置。
主题设计
在本示例中,主题设计如表2所示,说明如下:
- 新建1个主题域分组:城市交通。
- 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
主题域分组名称(L1) |
主题域分组编码(L1) |
主题域名称(L2) |
主题域编码(L2) |
业务对象名称(L3) |
业务对象编码(L3) |
---|---|---|---|---|---|
城市交通 |
city_traffic |
行程记录 |
stroke_reminder |
原始记录 |
origin_stroke |
标准记录 |
stand_stroke |
||||
行程事实 |
stroke_fact |
||||
记录统计 |
stroke_statistic |
||||
集团 |
people |
供应商 |
vendor |
||
时空 |
time_location |
时间 |
date |
||
公共维度 |
public_dimension |
公共维度 |
public_dimension |
操作步骤如下:
- 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。
- 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。
- 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”,使用默认的3层层级。
L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。
图4 配置主题层级
- 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。
在弹出窗口中,按图5所示填写参数,然后单击“确定”完成主题域分组的创建。
- 主题域分组创建完成后,您需要勾选主题域分组,并单击“发布”,发布主题域分组。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域分组发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图6 发布主题域分组
- 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。
以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加:
- 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
图7 创建L2层主题
- 在弹出窗口中,“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。
- 主题域创建完成后,您需要勾选主题域,并单击“发布”,发布主题域。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图8 发布主题域
- 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
- 新建业务对象。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加:
- 选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
- 在弹出窗口中,“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。
- 业务对象创建完成后,您需要勾选业务对象,并单击“发布”,发布业务对象。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图9 发布业务对象
新建码表并发布
在本示例中,您需要新建如表3所示的3个码表:
目录 |
*表名称 |
*表编码 |
表描述 |
*字段名称 |
*字段编码 |
*字段数据类型 |
字段描述 |
---|---|---|---|---|---|---|---|
付款方式 |
付款方式 |
payment_type |
无 |
付款方式编码 |
payment_type_id |
BIGINT |
无 |
付款方式值 |
payment_type_value |
STRING |
无 |
||||
供应商 |
供应商 |
vendor |
无 |
供应商id |
vendor_id |
BIGINT |
无 |
供应商 |
vendor_value |
STRING |
无 |
||||
费率 |
费率代码 |
rate_code |
无 |
费率id |
rate_code_id |
BIGINT |
无 |
费率说明 |
rate_code_value |
STRING |
无 |
操作步骤如下:
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 新建3个码表目录:付款方式、供应商、费率。
以新建“付款方式”目录为例,新建目录步骤如下,其他目录也请参照以下步骤进行新建。
- 在码表管理页面,单击码表目录树中上方的新建目录。
图10 码表目录树
- 在弹出框中,输入目录名称,选择目录,然后单击“确定”。
图11 新建码表目录
- 在码表管理页面,单击码表目录树中上方的新建目录。
- 新建3个码表:付款方式、供应商、费率代码。
以新建“付款方式”码表为例,新建码表步骤如下,其他码表也请参照以下步骤完成新建:
- 分别为付款方式、供应商、费率3个码表填写数值。
在“码表管理”页面,找到码表“付款方式”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表4所示的数值。
表4 付款方式码表的数值 付款方式编码
payment_type_id
付款方式值
payment_type_value
1
Credit card
2
Cash
3
No charge
4
Dispute
5
Unknown
6
Voided trip
返回“码表管理”页面,找到码表“供应商”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表5所示的数值。
返回“码表管理”页面,找到码表“费率代码”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表6所示的数值。
- 返回码表管理页面后,在码表列表中,选中刚才新建的3个码表,然后单击“发布”发布码表。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,码表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
新建数据标准并发布
在本示例中,您需要新建如表7所示的3个数据标准:
目录 |
*标准名称 |
*标准编码(自定义) |
*数据类型 |
数据长度 |
引用码表 |
*码表字段 |
描述 |
---|---|---|---|---|---|---|---|
付款方式 |
付款方式 |
payment_type |
长整型(BIGINT) |
无 |
付款方式 |
付款方式编码 |
无 |
供应商 |
供应商 |
vendor |
长整型(BIGINT) |
无 |
供应商 |
供应商id |
无 |
费率 |
费率代码 |
rate_code |
长整型(BIGINT) |
无 |
费率代码 |
费率id |
无 |
- 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。
- 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。
图16 新建数据标准目录
- 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。
在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。
图17 新建数据标准目录
- 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。
- 在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。
- 在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考配置中心的“标准模板管理”定制数据标准模板。
图18 数据标准-付款方式
图19 数据标准-供应商
图20 数据标准-费率代码
- 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
数仓规划:新建SDI层和DWI层两个模型
在数仓规划中,分别新建SDI层和DWI层两个关系模型,并通过逆向数据库导入原始数据表到SDI层的关系模型中,在DWI层模型中新建一个“标准出行数据”的标准化的业务表。
- 在数据架构控制台,单击左侧导航树中的“数仓规划”。
选择SDI层,单击“添加模型”,新建一个SDI层关系模型,命名为“sdi”,再选择DWI层,单击“添加模型”,新建一个DWI层关系模型,命名为“dwi”。单击“确定”即可。
图21 添加SDI层关系模型
图22 添加DWI层关系模型
- 先新建一个SDI层关系模型,命名为“sdi”。在SDI层中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
图23 新建SDI物理模型
- 再新建一个DWI层关系模型,命名为“dwi”。在物理模型页签中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
图24 新建DWI模型
- 先新建一个SDI层关系模型,命名为“sdi”。在SDI层中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
- 在“数仓规划”页签中,单击新建的SDI关系模型,进入到“关系建模”页面,展开主题后,选中业务对象“城市交通 > 行程记录 > 原始记录”,单击“逆向数据库”,通过逆向数据库,导入原始表。
逆向数据库依赖于数据资产采集,请您确保已对所需逆向的数据库完成数据资产采集。
图25 模型目录
在“逆向数据库”窗口中,配置如下所示参数,然后单击“确定”。在本示例中选择贴源层数据库demo_sdi_db中的原始数据表。
图26 逆向数据库
逆向数据库成功后,单击“关闭”。逆向后的表为草稿状态,在单击“发布”后,在列表中可查看导入并发布的表。
图27 查看表
- 请参照以下步骤,新建一个“标准出行数据”的标准化的业务表。
- 在“数仓规划”页签中,单击新建的DWI关系模型,进入到“关系建模”页面,展开主题后,选中DWI模型中的业务对象“城市交通 > 行程记录 > 标准记录”,然后在右侧列表上方单击“新建”按钮,进入新建表页面。
- 在新建表的“基本配置”标签页中,配置如下:
表8 标准出行数据表 *所属主题
*表名称
*表英文名称
*数据连接
数据库
*描述
标准记录
标准出行数据
dwi_taxi_trip_data
mrs_hive_link
demo_dwi_db
无
图28 行程数据表基本配置
- 单击“下一步”,进入“表字段”标签页。单击“新建”,在标准出行数据表中,依次添加如表9所示的字段,并单击字段供应商编号、费率代码、付款方式的“数据标准”列中的按钮,分别关联数据标准“供应商”、“费率代码”和“付款方式”。添加完成后如图29所示。
表9 标准出行数据表字段 序号
名称
英文名称
数据类型
数据标准
主键
分区
不为空
标签
1
供应商编号
vendor_id
长整型(BIGINT)
供应商
不勾选
不勾选
勾选
-
2
上车时间
tpep_pickup_datetime
时间戳类型(TIMESTAMP)
-
不勾选
不勾选
勾选
-
3
下车时间
tpep_dropoff_datetime
时间戳类型(TIMESTAMP)
-
不勾选
不勾选
勾选
-
4
乘客人数
passenger_count
字符类型(STRING)
-
不勾选
不勾选
勾选
-
5
行驶距离
trip_distance
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
6
费率代码
rate_code_id
长整型(BIGINT)
费率代码
不勾选
不勾选
勾选
-
7
存储转发标识
store_fwd_flag
字符类型(STRING)
-
不勾选
不勾选
勾选
-
8
上车地点
pu_location_id
字符类型(STRING)
-
不勾选
不勾选
勾选
-
9
下车地点
do_location_id
字符类型(STRING)
-
不勾选
不勾选
勾选
-
10
付款方式代码
payment_type
长整型(BIGINT)
付款方式
不勾选
不勾选
勾选
-
11
车费
fare_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
12
加收
extra
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
13
MTA税
mta_tax
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
14
手续费
tip_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
15
通行费
tolls_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
16
改善附加费
improvement_surcharge
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
17
总车费
total_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
对于标准出行数据表中的字段,您可以执行以下操作。
- 关联数据标准
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。有关关联数据标准的更多信息,请参见物理模型设计中的 。
- 添加标签
标签是用户自定义的标识。添加标签后,您就可以在DataArts Studio数据目录模块中通过标签搜索相关的数据资产。
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“标签”列,单击按钮可以添加标签,在弹出框中,您可以输入新的标签名称后按回车,也可以在下拉列表中选择已有标签。
- 关联质量规则
完成表的新建后,您可以在表中为字段关联质量规则,完成关联后,当表发布成功后,就会在DataArts Studio数据质量中自动创建质量作业,如果当前表已经发布,则系统会自动更新质量作业。有关关联质量规则的更多信息,请参见关联质量规则。
- 关联数据标准
- 单击“下一步”,进入“关系”标签页,本示例不涉及。
- 继续单击“下一步”,进入“映射”标签页,通过新建映射设计表的数据来源。
- 如果表中的字段数据来源于不同的关系模型,您需要创建多个映射。在每个映射中,您只需要为来源于当前映射的字段设置源字段,其他字段可以不设置。
- 如果表中的字段数据来源于同一个关系模型中的多个表,您可以新建一个映射。在该映射的“源表”中,您可以将多个表设置Join,然后再为表中的字段设置源字段。
本示例只需要新建一个映射。单击“新建”,新建一个映射,如图30。
- 映射名称:新建映射时会自动生成,您也可以修改。
- 来源模型:本示例选择“sdi”。
- 源表:本示例选择原始数据表“sdi_taxi_trip_data”,标准出行数据表的数据均来源于该原始数据表。
- 字段映射:
在“字段映射”区域,依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。如图31所示,在字段映射的底部,会显示生成的SQL语句,可供参考。
- 如果在
已创建的ETL作业可以进入
页面查看。ETL作业默认每天0点启动调度。
页面中勾选了“模型设计业务流程步骤 > 创建数据开发作业”(默认不勾选),发布表时,系统支持根据表的映射信息,在数据开发中自动创建一个ETL作业,每一个映射会生成一个ETL节点,作业名称以“数据库名称_表编码”开头。当前该功能处于内测阶段,仅支持DLI->DLI和DLI->DWS两种映射的作业创建。
- 在本示例中,不支持自动创建ETL作业,映射信息仅为数据开发提供数据的ETL流向。在数据开发的过程中,可以参考此处的映射关系编写SQL脚本。
- 如果在
- 完成映射的配置后,出租车行程数据表配置完成,单击“保存”。
- 模型创建好之后,勾选已创建的模型,选择“更多 > 导出”,然后在弹出框中选中“表”并单击“确定”,可以将整个模型导出。参考同样的方法导出模型“sdi”。导出后的模型,可以作为备份,今后可用于模型导入。
图32 导出模型
- 发布表模型。
- 发布2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。
返回关系建模页面,在模型目录选择“sdi”模型,然后在右侧的列表中,勾选表sdi_taxi_trip_data,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“sdi”模型发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 发布DWI模型中的表。
返回关系建模页面,在模型目录中选择“dwi”模型,然后在右侧的列表中,勾选表“标准出行数据”,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“dwi”模型发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 发布2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。
- 当表模型发布成功后,进入数据架构的“关系建模”页面选择对应模型,可以查看表的“状态”和“同步状态”。
发布是一个异步操作,您可以单击按钮刷新状态。表发布并通过审核后,系统会依据“配置中心 > 功能配置”页面中的“模型设计业务流程步骤”进行创建表、同步技术资产、同步业务资产等操作,在表的“同步状态”一列中将显示同步状态。
- “同步状态”若均显示成功,则说明表发布成功。鼠标移至“同步状态”中的图标之上,若显示“创建表: 创建成功”说明该表在对应的数据源下已经创建成功。
- “同步状态”若显示某一项或某几项失败,可以先刷新状态。如果仍失败,可以选择操作列的“更多 > 发布历史”,然后进入“发布日志”标签页查看日志。
请根据错误日志定位失败原因,问题解决后,再返回“关系建模”页面,在列表中勾选需同步的表,然后选择 尝试重新同步。如果仍同步失败,请联系技术支持人员协助解决。
图33 查看表状态
在列表中单击表名,可以查看表的详情,其中“数据源”显示了表的位置。
图34 表详情
维度建模:在DWR层新建并发布维度
在维度建模中,在DWR数据报告层中新建3个码表维度(供应商、费率代码和付款方式)和1个层级维度(日期维度)。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 新建如表10所示的3个码表维度。
表10 码表维度 *所属主题
*维度名称
*维度英文名称
*维度类型
*资产责任人
描述
*数据连接类型
*数据连接
*数据库
选择码表
供应商
供应商
dim_vendor
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
供应商
公共维度
费率代码
dim_rate_code
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
费率
公共维度
付款方式
dim_payment_type
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
付款方式
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 集团 > 供应商”,然后单击“新建”新建供应商维度。
图35 维度建模
- 在新建维度页面,如下图所示配置参数,然后单击“保存”完成维度的新建。
图36 新建维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建费率代码维度。在新建维度页面,配置如下,配置完成后单击“保存”。
图37 费率代码维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建付款方式维度。在新建维度页面,维度配置如下,配置完成后单击“保存”。
图38 付款方式维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 集团 > 供应商”,然后单击“新建”新建供应商维度。
- 新建一个层级维度“日期维度”。
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 时空 > 时间”,然后单击“新建”新建日期维度。
- 基本配置和物化配置如下:
表11 日期维度 *所属主题
*维度名称
*维度英文名称
*维度类型
*资产责任人
描述
*数据连接类型
*数据连接
*数据库
时间
日期维度
dim_date
层级维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
图39 日期维度
- 属性配置如下:
表12 属性配置 序号
属性名称
属性英文名称
数据标准
数据类型
代理键
主键
分区
不为空
1
日期维度
dim_date_key
-
TIMESTAMP
选中
选中
不勾选
勾选
2
时间
real_time
-
TIMESTAMP
不选
不选
不勾选
不勾选
3
分id
minute_id
-
BIGINT
不选
不选
不勾选
不勾选
4
分
minute
-
BIGINT
不选
不选
不勾选
不勾选
5
时id
hour_id
-
BIGINT
不选
不选
不勾选
不勾选
6
时
hour
-
BIGINT
不选
不选
不勾选
不勾选
7
日id
day_id
-
BIGINT
不选
不选
不勾选
不勾选
8
日
day
-
STRING
不选
不选
不勾选
不勾选
9
月id
month_id
-
BIGINT
不选
不选
不勾选
不勾选
10
月
month
-
STRING
不选
不选
不勾选
不勾选
11
年id
year_id
-
BIGINT
不选
不选
不勾选
不勾选
12
年
year
-
BIGINT
不选
不选
不勾选
不勾选
图40 属性配置
- 在层级配置区域,单击“新建”,新建如下2个层级:
图41 层级1
图42 层级2
- 新建维度页面配置完成后,单击“保存”。
- 返回维度页面后,在维度列表中,勾选刚才新建的4个维度,再单击“发布”。
- 在“批量发布”对话框中,选择审核人,单击“确认提交”,等待审核人员审核通过后,维度发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 完成所有维度的新建和发布,待审核通过后,系统会自动创建与维度相对应的维度表,维度表的名称和编码均与维度相同。在“维度建模”页面,选择“维度表”页签,可以查看建好的维度表。
在维度表列表中,在“同步状态”一列中可以查看维度表的同步状态。
- 如果同步状态均显示成功,则说明维度发布成功,维度表在数据库中创建成功。
- 如果同步状态中存在失败,可单击该维度表所在行的“发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以勾选该维度表,再单击列表上方的“同步”按钮尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
图43 维度表同步状态
维度建模:在DWR层新建并发布事实表
在维度建模中,在DWR数据报告层中新建一个事实表“行程订单”。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 单击“新建”按钮开始新建行程订单表。
页签,进入事实表页面。在左侧的主题树中选择业务对象 ,然后单击
在新建事实表页面的“基本配置”区域,配置如下:
- 所属主题:主题域分组:城市交通>主题域:行程记录>业务对象:行程事实
- 表名称:行程订单
- 表英文名称:fact_stroke_order
- 数据连接类型:MRS_HIVE
- 数据连接:mrs_hive_link
- 数据库:demo_dwr_db
- 表类型:HIVE_TABLE
- 资产责任人:在下拉列表中选择一个责任人。
- 描述:无
在“字段配置”区域,选择 " 新建 > 维度",在弹出框中选择维度“费率代码”、“供应商”、“付款方式”、“日期维度”,单击“确定”。再次选择 " 新建 > 维度",在弹出框中选择“日期维度”并单击“确定”。然后,在维度字段列表中,调整维度字段的顺序,并修改2个日期维度的信息,如表13所示。
表13 维度字段 序号
字段名称
字段英文名称
数据类型
主键
分区
不为空
关联数据标准
关联维度
角色
描述
1
费率id
rate_code_id
BIGINT
不勾选
不勾选
不勾选
-
费率代码
dim_
-
2
供应商id
vendor_id
BIGINT
不勾选
不勾选
不勾选
-
供应商
dim_
-
3
付款方式编码
payment_type_id
BIGINT
不勾选
不勾选
不勾选
-
付款方式
dim_
-
4
上车时间
dim_pickup_date_key
TIMESTAMP
不勾选
不勾选
不勾选
-
日期维度
dim_pickup
日期层维表
5
下车时间
dim_dropoff_date_key
TIMESTAMP
不勾选
不勾选
不勾选
-
日期维度
dim_dropoff
日期层维表
在“字段配置”区域,选择“新建 > 度量”,依次新建如表14所示的字段。
表14 度量属性 序号
字段名称
字段英文名称
数据类型
主键
分区
不为空
关联数据标准
6
上车地点
pu_location_id
字符类型(STRING)
不勾选
不勾选
不勾选
-
7
下车地点
do_location_id
字符类型(STRING)
不勾选
不勾选
不勾选
-
8
车费
fare_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
9
加收
extra
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
10
MTA税
mta_tax
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
11
手续费
tip_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
12
通行费
tolls_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
13
改善附加费
improvement_surcharge
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
14
总车费
total_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
图44 事实表字段配置
- 新建事实表页面配置完成后,单击“发布”提交审核。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“维度建模 > 事实表”页面,在列表中找到刚发布的事实表,在“同步状态”一列中可以查看事实表的同步状态。
- 如果同步状态均显示成功,则说明事实表发布成功,事实表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该事实表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在事实表页面勾选该事实表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
指标设计:新建并发布技术指标
指标 |
*数据表 |
*所属主题 |
*原子指标 |
统计维度 |
时间限定 |
通用限定 |
---|---|---|---|---|---|---|
基于付款方式维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
付款方式 |
无 |
无 |
基于费率代码维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
费率代码 |
无 |
无 |
基于供应商和下车时间维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
供应商,行程订单.下车时间 |
无 |
无 |
- 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。
- 新建一个原子指标“总车费”,用于统计总车费。
- 在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。
- 在新建原子指标页面配置如下,配置完成后单击“发布”。
图45 原子指标
- 等待审核人审核通过。审核通过后,原子指标就创建好了。
- 当原子指标通过审核后,新建以下3个衍生指标。
- 总车费(付款方式):基于付款方式维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图46 总车费(付款方式)
- 总车费(费率代码):基于费率代码维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图47 总车费(费率代码)
- 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图48 总车费(供应商)
- 总车费(付款方式):基于付款方式维度统计总车费
- 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
数据集市:在DM层新建并发布汇总表
在DM数据集市层,您需要新建如表17所示的汇总表。
*所属主题 |
*表名称 |
*表英文名称 |
统计维度 |
数据连接类型 |
*数据连接 |
*数据库 |
资产责任人 |
描述 |
---|---|---|---|---|---|---|---|---|
记录统计 |
付款方式统计汇总 |
dws_payment_type |
付款方式 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
记录统计 |
费率统计汇总 |
dws_rate_code |
费率代码 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
记录统计 |
供应商统计汇总 |
dws_vendor |
供应商,行程订单.下车时间 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
- 在数据架构控制台,单击左侧导航树中的“数据集市”,进入数据集市页面。
- 单击 页签,进入汇总表页面。
- 新建3个汇总表:付款方式统计汇总表、费率统计汇总表、供应商统计汇总表。
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建付款方式统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
在新建汇总表页面,基本配置如下:
图49 付款方式统计汇总
在“属性配置”区域,单击“添加”,输入时间周期字段名称以及选择数据类型。
图50 属性配置1
在“属性配置”区域,单击“添加”,添加衍生指标“总车费(付款方式)”,设置关联对象,选择对应的指标。此处只能添加与所指定的“统计维度”相关联的并且已发布的衍生指标或复合指标。
图51 属性配置2
完成上述配置后,单击“保存”。
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建费率统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
图52 费率统计汇总-基本配置
图53 费率统计汇总-属性配置
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建供应商统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
图54 供应商统计汇总-基本配置
图55 供应商统计汇总-属性配置
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建付款方式统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
- 返回数据集市页面的“汇总表”标签页后,勾选建好的3个汇总表,单击“发布”。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,汇总表会自动创建。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“数据集市 > 汇总表”页面,在列表中找到刚发布的汇总表,在“同步状态”一列中可以查看汇总表的同步状态。
- 如果同步状态均显示成功,则说明汇总表发布成功,汇总表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该汇总表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在汇总表页面勾选该汇总表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。