文档首页 > > 最佳实践> 使用DLI进行金融大数据咨询业务数据分析

使用DLI进行金融大数据咨询业务数据分析

分享
更新时间: 2019/07/05 GMT+08:00

业务场景介绍

  • 场景描述

    H公司是国内首家收集全球主要贸易国贸易统计及买家数据的商业机构,拥有全球最大的贸易统计数据库,其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。

    在使用DLI服务之前,H公司采用其自建的大数据队列,并安排专人维护,每年固定购买电信联通双线专用带宽,在机房、电力、专网、服务器、运维方面进行高额投入,但其在面对客户不断变化的业务诉求时,因为人员投入不足,大数据队列能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。

    使用DLI服务之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。DLI服务按需收费,帮助H公司客户释放了维护人员并降低了专用带宽成本,使得维护成本相比线下数据中心降低了70%,且使用门槛低,可实现现有业务的平滑迁移,使新业务上线周期相比之前缩短了50%。

    DLI帮助H公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。

  • 场景方案
    图1 场景方案

    根据客户原始数据采集处理系统中已有的H公司的数据(例如:贸易详单数据和基础信息数据),基于CDM、OBS和DLI完成贸易统计分析。

  • 数据说明
    • 贸易详单数据

      包括全球主要贸易国货物贸易统计数据。

      表1 贸易详单数据

      字段名称

      字段类型

      字段说明

      m_month

      smallint

      hs_code

      string

      商品编码

      country

      smallint

      国家编码

      dollar_value

      double

      交易金额

      quantity

      double

      交易量

      unit

      smallint

      计量单位

      b_country

      smallint

      目标国家编码

      imex

      smallint

      进出口类型

      y_year

      smallint

    • 基础信息数据

      贸易详单数据中维度字段对应的相关字典数据信息。

      表2 国家基础信息表(country)

      字段名称

      字段类型

      字段说明

      countryid

      smallint

      国家编码

      country_en

      string

      国家英文名称

      country_cn

      string

      国家中文名称

      表3 更新时间信息表(updatetime)

      字段名称

      字段类型

      字段说明

      countryid

      smallint

      国家编码

      imex

      smallint

      进出口类型

      hs_len

      smallint

      商品编码长度

      minstartdate

      string

      最小开始时间

      startdate

      string

      开始时间

      newdate

      string

      更新时间

      minnewdate

      string

      最小更新时间

      表4 进出口商品编码信息表(hs246)

      字段名称

      字段类型

      字段说明

      id

      bigint

      编号

      hs

      string

      商品编码

      hs_cn

      string

      商品中文名称

      hs_en

      string

      商品英文名称

      表5 单位信息表(unit_general)

      字段名称

      字段类型

      字段说明

      id

      smallint

      计量单位编码

      unit_en

      string

      计量单位英文名称

      unit_cn

      string

      计量单位中文名称

操作流程概述

使用DLI进行贸易统计分析的操作过程主要包括3个步骤:

步骤1:注册账号。使用DLI对数据进行分析之前,需要注册华为云账号并进行实名认证。

步骤2:上传数据。通过CDM将H公司存量数据上传到对象存储服务OBS,通过OBS Browser每天上传增量数据,为后面使用DLI完成数据分析做准备。

步骤3:分析数据。客户业务系统对接DLI,支撑H公司客户进行贸易统计分析。

步骤1:注册账号

注册华为云账号并进行实名认证。

  1. 注册华为云账号
    1. 登录华为云官方网站。
    2. 单击华为云官网右上角“注册”进入注册页面,请参见图2
      图2 华为云官网注册页面
    3. 填写“账号名”、“密码”和“手机号”,单击“免费获取短信验证码”按钮,系统将会发送验证码至手机,填写“验证码”,单击“同意协议并注册”。
  2. 实名认证

    根据国家法律规定,所有用户必须完成实名认证后才能使用云服务。

    1. 账号登录后,单击界面右上角用户名,再单击“实名认证”。
    2. 图3中选择“个人用户”或“企业用户”。
      图3 实名认证
    3. 根据提示信息完成实名认证。

步骤2:上传数据

  • 存量数据上传

    云数据迁移(Cloud Data Migration,以下简称CDM)是一个实现多种数据源之间数据相互迁移的服务,支持华为公有云内部数据相互迁移、公有云与本地数据相互迁移。用户使用CDM服务,通过表/文件迁移方式,将H公司保存在OBS上的存量数据上传至DLI服务,使用DLI服务的计算能力进行数据分析。

    1. 默认数据已保存在OBS上,若需了解OBS上传操作步骤,请参考步骤2:上传数据
    2. 在DLI服务中依次创建队列、数据库和表,具体操作请参考《数据湖探索用户指南》
    3. 登录CDM管理控制台,单击右上角“购买云数据迁移服务”,创建CDM集群,如图4所示。
      图4 创建CDM集群
      说明:

      CDM集群的VPC选择需与DLI所在的VPC一致,且推荐子网、安全组也与DLI一致。

      如果由于安全控制的原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问DLI数据库。

    4. CDM集群创建完成后,选择集群后面的“作业管理”,如图5所示。
      图5 作业管理
    5. 在CDM作业管理界面,选择“连接管理> 新建连接”,进入选择连接类型的界面,如图6所示。
      图6 选择连接类型
    6. 创建DLI连接,选择“数据湖探索(DLI)”后单击“下一步”,配置DLI连接参数,如图7所示:
      图7 创建DLI连接
      表6 DLI连接参数

      参数名

      说明

      取值样例

      名称

      连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

      dli_link

      访问标识(AK)

      访问DLI数据库时鉴权所需的AK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。

      -

      密钥(SK)

      访问DLI数据库时鉴权所需的SK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。

      -

      区域

      DLI服务所在的区域。

      cn-north-1

      项目ID

      DLI服务所在区域的项目ID。在“我的凭证”中获取。

      a46ed0f02bde42e7afe36777eb9d0f42

    7. 单击“保存”,CDM会自动测试连接是否可用。如果可用则提示保存成功,系统自动跳转到连接管理界面。如果测试不可用,需要重新检查连接参数是否配置正确。
    8. 单击“新建连接”创建OBS连接,选择“对象存储服务(OBS)”后单击“下一步”,配置OBS连接参数,如图8所示:
      图8 创建OBS连接
      表7 OBS连接参数

      参数名

      说明

      取值样例

      名称

      连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

      obslink

      OBS服务器

      配置为OBS的域名或IP地址

      obs.myhuaweicloud.com

      端口

      OBS服务器的端口

      443

      访问标识(AK)

      访问OBS数据库时鉴权所需的AK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。

      -

      密钥(SK)

      访问OBS数据库时鉴权所需的SK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。

      -

    9. 单击“保存”,CDM会自动测试连接是否可用。如果可用则提示保存成功,系统自动跳转到连接管理界面。如果测试不可用,需要重新检查连接参数是否配置正确。
    10. 选择“表/文件迁移> 新建作业”,开始创建从OBS迁移数据到DLI的任务, 如图9所示:
      图9 创建作业
      表8 作业配置参数

      参数名

      说明

      取值样例

      作业名称

      用户自定义作业名称。

      obs2dli

      表9 OBS作为源连接的配置参数

      参数名

      说明

      取值样例

      源连接名称

      选择所创建的OBS连接。

      obslink

      桶名

      待迁移数据所属的桶。

      -

      源目录或文件

      待迁移数据的具体路径。

      -

      文件格式

      传输数据时所用的文件格式,可以选择“CSV格式”或“JSON格式”。

      CSV格式

      表10 DLI作为目的连接的配置参数

      参数名

      说明

      取值样例

      目的连接名称

      选择所创建的DLI连接。

      dlilink

      数据库名称

      待迁入数据的DLI服务数据库。

      sqoop

      表名

      待迁入数据的DLI表名。该表的字段类型和格式,建议与待迁移数据的字段类型和格式保持一致。

      car_detail

      资源队列

      待迁入数据的队列。

      cdm

      导入前清空数据

      导入数据前,选择是否清空目的队列中的数据。

    11. 作业基本信息配置完成后,单击“下一步”,检查字段映射关系是否正确。
      主要检查以下几项:
      • 源字段类型是否可以转换为目的字段类型。
      • 源字段和目的字段对应关系是否正确。如果不正确,用户可以单击操作列下的箭头调整目的字段的顺序。
      • 时间格式是否正确。如果不正确,可以手动修改格式或者选择已有的时间格式。
      说明:

      用户可以自定义字段内容转换。

    12. 单击“下一步”配置任务参数,如图10所示。
      图10 任务配置
      表11 任务配置参数

      参数名

      说明

      取值样例

      抽取并发数

      用户自定义同时执行的抽取任务数。

      1

      是否定时执行

      选择“是”时,用户可自定义定时任务。

      是否写入脏数据

      选择是否记录脏数据。

    13. 作业创建完成后,单击“保存并运行”,系统将跳转到作业管理界面,这里可查看作业执行进度和结果。

步骤3:分析数据

在对应的表中进行数据查询,具体步骤请参考步骤3:分析数据

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区