步骤5:数据架构设计
DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。
- SDI (Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。
- DWI (Data Warehouse Integration),又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。
- DWR (Data Warehouse Report),又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。
- DM (Data Mart),又称数据集市。DM面向展现层,数据有多级汇总。
本章节为您介绍如何在DataArts Studio平台的“数据架构”模块中实现模型设计,流程如下。
添加审核人
在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。 Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。
- 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。
- 选择审核人(工作空间管理员、开发者、自定义角色审批),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。
您也可以添加自己当前账号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。图1 添加审核人
管理配置中心
- 在数据架构控制台,单击左侧菜单栏的“配置中心”,进入配置中心页面。
- 进入“功能配置”页签,如下图所示,设置“模型设计业务流程步骤”。
图2 功能配置
- 单击“确定”完成配置。
主题设计
在本示例中,主题设计如表1所示,说明如下:
- 新建1个主题域分组:城市交通。
- 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
主题域分组名称(L1) |
主题域分组编码(L1) |
主题域名称(L2) |
主题域编码(L2) |
业务对象名称(L3) |
业务对象编码(L3) |
---|---|---|---|---|---|
城市交通 |
city_traffic |
行程记录 |
stroke_reminder |
原始记录 |
origin_stroke |
标准记录 |
stand_stroke |
||||
行程事实 |
stroke_fact |
||||
记录统计 |
stroke_statistic |
||||
集团 |
people |
供应商 |
vendor |
||
时空 |
time_location |
时间 |
date |
||
公共维度 |
public_dimension |
公共维度 |
public_dimension |
操作步骤如下:
- 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。
- 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。
- 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”,使用默认的3层层级。
L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。
图4 配置主题层级
- 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。
在弹出窗口中,按图5所示填写参数,然后单击“确定”完成主题域分组的创建。
- 主题域分组创建完成后,您需要勾选主题域分组,并单击“发布”,发布主题域分组。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域分组发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图6 发布主题域分组
- 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。
以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加:
- 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
图7 创建L2层主题
- 在弹出窗口中,“名称”和“编码”请参照表1中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。
- 主题域创建完成后,您需要勾选主题域,并单击“发布”,发布主题域。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,主题域发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图8 发布主题域
- 选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
- 新建业务对象。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加:
- 选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
- 在弹出窗口中,“名称”和“编码”请参照表1中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。
- 业务对象创建完成后,您需要勾选业务对象,并单击“发布”,发布业务对象。在弹出的“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
图9 发布业务对象
新建码表并发布
在本示例中,您需要新建如表2所示的3个码表:
目录 |
*表名称 |
*表编码 |
表描述 |
*字段名称 |
*字段编码 |
*字段数据类型 |
字段描述 |
---|---|---|---|---|---|---|---|
付款方式 |
付款方式 |
payment_type |
无 |
付款方式编码 |
payment_type_id |
BIGINT |
无 |
付款方式值 |
payment_type_value |
STRING |
无 |
||||
供应商 |
供应商 |
vendor |
无 |
供应商id |
vendor_id |
BIGINT |
无 |
供应商 |
vendor_value |
STRING |
无 |
||||
费率 |
费率代码 |
rate_code |
无 |
费率id |
rate_code_id |
BIGINT |
无 |
费率说明 |
rate_code_value |
STRING |
无 |
操作步骤如下:
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 新建3个码表目录:付款方式、供应商、费率。
以新建“付款方式”目录为例,新建目录步骤如下,其他目录也请参照以下步骤进行新建。
- 在码表管理页面,单击码表目录树中上方的新建目录。
图10 码表目录树
- 在弹出框中,输入目录名称,选择目录,然后单击“确定”。
图11 新建码表目录
- 在码表管理页面,单击码表目录树中上方的新建目录。
- 新建3个码表:付款方式、供应商、费率代码。
以新建“付款方式”码表为例,新建码表步骤如下,其他码表也请参照以下步骤完成新建:
- 分别为付款方式、供应商、费率3个码表填写数值。
在“码表管理”页面,找到码表“付款方式”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表3所示的数值。
表3 付款方式码表的数值 付款方式编码
payment_type_id
付款方式值
payment_type_value
1
Credit card
2
Cash
3
No charge
4
Dispute
5
Unknown
6
Voided trip
返回“码表管理”页面,找到码表“供应商”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表4所示的数值。
返回“码表管理”页面,找到码表“费率代码”,然后在该码表所在行选择 。在填写数值页面,依次单击“新建”添加如表5所示的数值。
- 返回码表管理页面后,在码表列表中,选中刚才新建的3个码表,然后单击“发布”发布码表。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,码表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
新建数据标准并发布
在本示例中,您需要新建如表6所示的3个数据标准:
目录 |
*标准名称 |
*标准编码(自定义) |
*数据类型 |
数据长度 |
引用码表 |
*码表字段 |
描述 |
---|---|---|---|---|---|---|---|
付款方式 |
付款方式 |
payment_type |
长整型(BIGINT) |
无 |
付款方式 |
付款方式编码 |
无 |
供应商 |
供应商 |
vendor |
长整型(BIGINT) |
无 |
供应商 |
供应商id |
无 |
费率 |
费率代码 |
rate_code |
长整型(BIGINT) |
无 |
费率代码 |
费率id |
无 |
- 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。
- 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。
图16 新建数据标准目录
- 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。
在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。
图17 新建数据标准目录
- 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。
- 在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。
- 在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考配置中心的“标准模板管理”定制数据标准模板。
图18 数据标准-付款方式
图19 数据标准-供应商
图20 数据标准-费率代码
- 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
数仓规划:新建SDI层和DWI层两个模型
在数仓规划中,分别新建SDI层和DWI层两个关系模型,并通过逆向数据库导入原始数据表到SDI层的关系模型中,在DWI层模型中新建一个“标准出行数据”的标准化的业务表。
- 在数据架构控制台,单击左侧导航树中的“数仓规划”。
选择SDI层,单击“添加模型”,新建一个SDI层关系模型,命名为“sdi”,再选择DWI层,单击“添加模型”,新建一个DWI层关系模型,命名为“dwi”。单击“确定”即可。
图21 添加SDI层关系模型
图22 添加DWI层关系模型
- 先新建一个SDI层关系模型,命名为“sdi”。在SDI层中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
图23 新建SDI物理模型
- 再新建一个DWI层关系模型,命名为“dwi”。在物理模型页签中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
图24 新建DWI模型
- 先新建一个SDI层关系模型,命名为“sdi”。在SDI层中,单击“添加模型”,进入新建模型页面,配置如下参数,单击“确定”。
- 在“数仓规划”页签中,单击新建的SDI关系模型,进入到“关系建模”页面,展开主题后,选中业务对象“城市交通 > 行程记录 > 原始记录”,单击“逆向数据库”,通过逆向数据库,导入原始表。
逆向数据库依赖于数据资产采集,请您确保已对所需逆向的数据库完成数据资产采集。
图25 模型目录
在“逆向数据库”窗口中,配置如下所示参数,然后单击“确定”。在本示例中选择贴源层数据库demo_sdi_db中的原始数据表。
图26 逆向数据库
逆向数据库成功后,单击“关闭”。逆向后的表为草稿状态,在单击“发布”后,在列表中可查看导入并发布的表。
图27 查看表
- 请参照以下步骤,新建一个“标准出行数据”的标准化的业务表。
- 在“数仓规划”页签中,单击新建的DWI关系模型,进入到“关系建模”页面,展开主题后,选中DWI模型中的业务对象“城市交通 > 行程记录 > 标准记录”,然后在右侧列表上方单击“新建”按钮,进入新建表页面。
- 在新建表的“基本配置”标签页中,配置如下:
表7 标准出行数据表 *所属主题
*表名称
*表英文名称
*数据连接
数据库
*描述
标准记录
标准出行数据
dwi_taxi_trip_data
mrs_hive_link
demo_dwi_db
无
图28 行程数据表基本配置
- 单击“下一步”,进入“表字段”标签页。单击“新建”,在标准出行数据表中,依次添加如表8所示的字段,并单击字段供应商编号、费率代码、付款方式的“数据标准”列中的按钮,分别关联数据标准“供应商”、“费率代码”和“付款方式”。添加完成后如图29所示。
表8 标准出行数据表字段 序号
名称
英文名称
数据类型
数据标准
主键
分区
不为空
标签
1
供应商编号
vendor_id
长整型(BIGINT)
供应商
不勾选
不勾选
勾选
-
2
上车时间
tpep_pickup_datetime
时间戳类型(TIMESTAMP)
-
不勾选
不勾选
勾选
-
3
下车时间
tpep_dropoff_datetime
时间戳类型(TIMESTAMP)
-
不勾选
不勾选
勾选
-
4
乘客人数
passenger_count
字符类型(STRING)
-
不勾选
不勾选
勾选
-
5
行驶距离
trip_distance
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
6
费率代码
rate_code_id
长整型(BIGINT)
费率代码
不勾选
不勾选
勾选
-
7
存储转发标识
store_fwd_flag
字符类型(STRING)
-
不勾选
不勾选
勾选
-
8
上车地点
pu_location_id
字符类型(STRING)
-
不勾选
不勾选
勾选
-
9
下车地点
do_location_id
字符类型(STRING)
-
不勾选
不勾选
勾选
-
10
付款方式代码
payment_type
长整型(BIGINT)
付款方式
不勾选
不勾选
勾选
-
11
车费
fare_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
12
加收
extra
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
13
MTA税
mta_tax
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
14
手续费
tip_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
15
通行费
tolls_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
16
改善附加费
improvement_surcharge
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
17
总车费
total_amount
高精度(DECIMAL)(10,2)
-
不勾选
不勾选
勾选
-
对于标准出行数据表中的字段,您可以执行以下操作。
- 关联数据标准
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。有关关联数据标准的更多信息,请参见物理模型设计中的 。
- 添加标签
标签是用户自定义的标识。添加标签后,您就可以在DataArts Studio数据目录模块中通过标签搜索相关的数据资产。
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“标签”列,单击按钮可以添加标签,在弹出框中,您可以输入新的标签名称后按回车,也可以在下拉列表中选择已有标签。
- 关联质量规则
完成表的新建后,您可以在表中为字段关联质量规则,完成关联后,当表发布成功后,就会在DataArts Studio数据质量中自动创建质量作业,如果当前表已经发布,则系统会自动更新质量作业。有关关联质量规则的更多信息,请参见关联质量规则。
- 关联数据标准
- 单击“下一步”,进入“关系”标签页,本示例不涉及。
- 继续单击“下一步”,进入“映射”标签页,通过新建映射设计表的数据来源。
- 如果表中的字段数据来源于不同的关系模型,您需要创建多个映射。在每个映射中,您只需要为来源于当前映射的字段设置源字段,其他字段可以不设置。
- 如果表中的字段数据来源于同一个关系模型中的多个表,您可以新建一个映射。在该映射的“源表”中,您可以将多个表设置Join,然后再为表中的字段设置源字段。
本示例只需要新建一个映射。单击“新建”,新建一个映射,如图30。
- 映射名称:新建映射时会自动生成,您也可以修改。
- 来源模型:本示例选择“sdi”。
- 源表:本示例选择原始数据表“sdi_taxi_trip_data”,标准出行数据表的数据均来源于该原始数据表。
- 字段映射:
在“字段映射”区域,依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。如图31所示,在字段映射的底部,会显示生成的SQL语句,可供参考。
- 如果在
已创建的ETL作业可以进入
页面查看。ETL作业默认每天0点启动调度。
页面中勾选了“模型设计业务流程步骤 > 创建数据开发作业”(默认不勾选),发布表时,系统支持根据表的映射信息,在数据开发中自动创建一个ETL作业,每一个映射会生成一个ETL节点,作业名称以“数据库名称_表编码”开头。当前该功能处于内测阶段,仅支持DLI->DLI和DLI->DWS两种映射的作业创建。
- 在本示例中,不支持自动创建ETL作业,映射信息仅为数据开发提供数据的ETL流向。在数据开发的过程中,可以参考此处的映射关系编写SQL脚本。
- 如果在
- 完成映射的配置后,出租车行程数据表配置完成,单击“保存”。
- 模型创建好之后,勾选已创建的模型,选择“更多 > 导出”,然后在弹出框中选中“表”并单击“确定”,可以将整个模型导出。参考同样的方法导出模型“sdi”。导出后的模型,可以作为备份,今后可用于模型导入。
图32 导出模型
- 发布表模型。
- 发布2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。
返回关系建模页面,在模型目录选择“sdi”模型,然后在右侧的列表中,勾选表sdi_taxi_trip_data,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“sdi”模型发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 发布DWI模型中的表。
返回关系建模页面,在模型目录中选择“dwi”模型,然后在右侧的列表中,勾选表“标准出行数据”,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“dwi”模型发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 发布2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。
- 当表模型发布成功后,进入数据架构的“关系建模”页面选择对应模型,可以查看表的“状态”和“同步状态”。
发布是一个异步操作,您可以单击按钮刷新状态。表发布并通过审核后,系统会依据“配置中心 > 功能配置”页面中的“模型设计业务流程步骤”进行创建表、同步技术资产、同步业务资产等操作,在表的“同步状态”一列中将显示同步状态。
- “同步状态”若均显示成功,则说明表发布成功。鼠标移至“同步状态”中的图标之上,若显示“创建表: 创建成功”说明该表在对应的数据源下已经创建成功。
- “同步状态”若显示某一项或某几项失败,可以先刷新状态。如果仍失败,可以选择操作列的“更多 > 发布历史”,然后进入“发布日志”标签页查看日志。
请根据错误日志定位失败原因,问题解决后,再返回“关系建模”页面,在列表中勾选需同步的表,然后选择 尝试重新同步。如果仍同步失败,请联系技术支持人员协助解决。
图33 查看表状态
在列表中单击表名,可以查看表的详情,其中“数据源”显示了表的位置。
图34 表详情
维度建模:在DWR层新建并发布维度
在维度建模中,在DWR数据报告层中新建3个码表维度(供应商、费率代码和付款方式)和1个层级维度(日期维度)。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 新建如表9所示的3个码表维度。
表9 码表维度 *所属主题
*维度名称
*维度英文名称
*维度类型
*资产责任人
描述
*数据连接类型
*数据连接
*数据库
选择码表
供应商
供应商
dim_vendor
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
供应商
公共维度
费率代码
dim_rate_code
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
费率
公共维度
付款方式
dim_payment_type
码表维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
付款方式
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 集团 > 供应商”,然后单击“新建”新建供应商维度。
图35 维度建模
- 在新建维度页面,如下图所示配置参数,然后单击“保存”完成维度的新建。
图36 新建维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建费率代码维度。在新建维度页面,配置如下,配置完成后单击“保存”。
图37 费率代码维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建付款方式维度。在新建维度页面,维度配置如下,配置完成后单击“保存”。
图38 付款方式维度
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 集团 > 供应商”,然后单击“新建”新建供应商维度。
- 新建一个层级维度“日期维度”。
- 在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 时空 > 时间”,然后单击“新建”新建日期维度。
- 基本配置和物化配置如下:
表10 日期维度 *所属主题
*维度名称
*维度英文名称
*维度类型
*资产责任人
描述
*数据连接类型
*数据连接
*数据库
时间
日期维度
dim_date
层级维度
-
无
MRS_HIVE
mrs_hive_link
demo_dwr_db
图39 日期维度
- 属性配置如下:
表11 属性配置 序号
属性名称
属性英文名称
数据标准
数据类型
代理键
主键
分区
不为空
1
日期维度
dim_date_key
-
TIMESTAMP
选中
选中
不勾选
勾选
2
时间
real_time
-
TIMESTAMP
不选
不选
不勾选
不勾选
3
分id
minute_id
-
BIGINT
不选
不选
不勾选
不勾选
4
分
minute
-
BIGINT
不选
不选
不勾选
不勾选
5
时id
hour_id
-
BIGINT
不选
不选
不勾选
不勾选
6
时
hour
-
BIGINT
不选
不选
不勾选
不勾选
7
日id
day_id
-
BIGINT
不选
不选
不勾选
不勾选
8
日
day
-
STRING
不选
不选
不勾选
不勾选
9
月id
month_id
-
BIGINT
不选
不选
不勾选
不勾选
10
月
month
-
STRING
不选
不选
不勾选
不勾选
11
年id
year_id
-
BIGINT
不选
不选
不勾选
不勾选
12
年
year
-
BIGINT
不选
不选
不勾选
不勾选
图40 属性配置
- 在层级配置区域,单击“新建”,新建如下2个层级:
图41 层级1
图42 层级2
- 新建维度页面配置完成后,单击“保存”。
- 返回维度页面后,在维度列表中,勾选刚才新建的4个维度,再单击“发布”。
- 在“批量发布”对话框中,选择审核人,单击“确认提交”,等待审核人员审核通过后,维度发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 完成所有维度的新建和发布,待审核通过后,系统会自动创建与维度相对应的维度表,维度表的名称和编码均与维度相同。在“维度建模”页面,选择“维度表”页签,可以查看建好的维度表。
在维度表列表中,在“同步状态”一列中可以查看维度表的同步状态。
- 如果同步状态均显示成功,则说明维度发布成功,维度表在数据库中创建成功。
- 如果同步状态中存在失败,可单击该维度表所在行的“发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以勾选该维度表,再单击列表上方的“同步”按钮尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
图43 维度表同步状态
维度建模:在DWR层新建并发布事实表
在维度建模中,在DWR数据报告层中新建一个事实表“行程订单”。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 单击“新建”按钮开始新建行程订单表。
页签,进入事实表页面。在左侧的主题树中选择业务对象 ,然后单击
在新建事实表页面的“基本配置”区域,配置如下:
- 所属主题:主题域分组:城市交通>主题域:行程记录>业务对象:行程事实
- 表名称:行程订单
- 表英文名称:fact_stroke_order
- 数据连接类型:MRS_HIVE
- 数据连接:mrs_hive_link
- 数据库:demo_dwr_db
- 表类型:HIVE_TABLE
- 资产责任人:在下拉列表中选择一个责任人。
- 描述:无
在“字段配置”区域,选择 " 新建 > 维度",在弹出框中选择维度“费率代码”、“供应商”、“付款方式”、“日期维度”,单击“确定”。再次选择 " 新建 > 维度",在弹出框中选择“日期维度”并单击“确定”。然后,在维度字段列表中,调整维度字段的顺序,并修改2个日期维度的信息,如表12所示。
表12 维度字段 序号
字段名称
字段英文名称
数据类型
主键
分区
不为空
关联数据标准
关联维度
角色
描述
1
费率id
rate_code_id
BIGINT
不勾选
不勾选
不勾选
-
费率代码
dim_
-
2
供应商id
vendor_id
BIGINT
不勾选
不勾选
不勾选
-
供应商
dim_
-
3
付款方式编码
payment_type_id
BIGINT
不勾选
不勾选
不勾选
-
付款方式
dim_
-
4
上车时间
dim_pickup_date_key
TIMESTAMP
不勾选
不勾选
不勾选
-
日期维度
dim_pickup
日期层维表
5
下车时间
dim_dropoff_date_key
TIMESTAMP
不勾选
不勾选
不勾选
-
日期维度
dim_dropoff
日期层维表
在“字段配置”区域,选择“新建 > 度量”,依次新建如表13所示的字段。
表13 度量属性 序号
字段名称
字段英文名称
数据类型
主键
分区
不为空
关联数据标准
6
上车地点
pu_location_id
字符类型(STRING)
不勾选
不勾选
不勾选
-
7
下车地点
do_location_id
字符类型(STRING)
不勾选
不勾选
不勾选
-
8
车费
fare_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
9
加收
extra
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
10
MTA税
mta_tax
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
11
手续费
tip_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
12
通行费
tolls_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
13
改善附加费
improvement_surcharge
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
14
总车费
total_amount
高精度(DECIMAL) (10,2)
不勾选
不勾选
不勾选
-
图44 事实表字段配置
- 新建事实表页面配置完成后,单击“发布”提交审核。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“维度建模 > 事实表”页面,在列表中找到刚发布的事实表,在“同步状态”一列中可以查看事实表的同步状态。
- 如果同步状态均显示成功,则说明事实表发布成功,事实表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该事实表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在事实表页面勾选该事实表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
指标设计:新建并发布技术指标
指标 |
*数据表 |
*所属主题 |
*原子指标 |
统计维度 |
时间限定 |
通用限定 |
---|---|---|---|---|---|---|
基于付款方式维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
付款方式 |
无 |
无 |
基于费率代码维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
费率代码 |
无 |
无 |
基于供应商和下车时间维度统计总车费 |
行程订单 |
记录统计 |
总车费 |
供应商,行程订单.下车时间 |
无 |
无 |
- 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。
- 新建一个原子指标“总车费”,用于统计总车费。
- 在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。
- 在新建原子指标页面配置如下,配置完成后单击“发布”。
图45 原子指标
- 等待审核人审核通过。审核通过后,原子指标就创建好了。
- 当原子指标通过审核后,新建以下3个衍生指标。
- 总车费(付款方式):基于付款方式维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图46 总车费(付款方式)
- 总车费(费率代码):基于费率代码维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图47 总车费(费率代码)
- 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
图48 总车费(供应商)
- 总车费(付款方式):基于付款方式维度统计总车费
- 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
数据集市:在DM层新建并发布汇总表
在DM数据集市层,您需要新建如表16所示的汇总表。
*所属主题 |
*表名称 |
*表英文名称 |
统计维度 |
数据连接类型 |
*数据连接 |
*数据库 |
资产责任人 |
描述 |
---|---|---|---|---|---|---|---|---|
记录统计 |
付款方式统计汇总 |
dws_payment_type |
付款方式 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
记录统计 |
费率统计汇总 |
dws_rate_code |
费率代码 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
记录统计 |
供应商统计汇总 |
dws_vendor |
供应商,行程订单.下车时间 |
MRS_HIVE |
mrs_hive_link |
demo_dm_db |
- |
无 |
- 在数据架构控制台,单击左侧导航树中的“数据集市”,进入数据集市页面。
- 单击 页签,进入汇总表页面。
- 新建3个汇总表:付款方式统计汇总表、费率统计汇总表、供应商统计汇总表。
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建付款方式统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
在新建汇总表页面,基本配置如下:
图49 付款方式统计汇总
在“属性配置”区域,单击“添加”,输入时间周期字段名称以及选择数据类型。
图50 属性配置1
在“属性配置”区域,单击“添加”,添加衍生指标“总车费(付款方式)”。此处只能添加与所指定的“统计维度”相关联的并且已发布的衍生指标或复合指标。
图51 属性配置2
完成上述配置后,单击“保存”。
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建费率统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
图52 费率统计汇总-基本配置
图53 费率统计汇总-属性配置
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建供应商统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
图54 供应商统计汇总-基本配置
图55 供应商统计汇总-属性配置
- 在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建付款方式统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
- 返回数据集市页面的“汇总表”标签页后,勾选建好的3个汇总表,单击“发布”。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,汇总表会自动创建。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“数据集市 > 汇总表”页面,在列表中找到刚发布的汇总表,在“同步状态”一列中可以查看汇总表的同步状态。
- 如果同步状态均显示成功,则说明汇总表发布成功,汇总表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该汇总表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在汇总表页面勾选该汇总表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
审核人员审核对象
- 使用审核人员账号,登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。
- 在左侧导航树中,单击“审核中心”,在“待我审核”页签的列表中选中需要审核的对象,然后单击“批量审核”。
- 输入审核意见后,单击“批量通过”完成审核。