使用DLI进行金融大数据咨询业务数据分析
业务场景介绍
- 场景描述
H公司是国内首家收集全球主要贸易国贸易统计及买家数据的商业机构,拥有全球最大的贸易统计数据库,其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。
在使用DLI服务之前,H公司采用其自建的大数据队列,并安排专人维护,每年固定地购买电信联通双线专用带宽,在机房、电力、专网、服务器、运维方面进行高额投入,但其在面对客户不断变化的业务诉求时,因为人员投入不足,大数据队列能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。
使用DLI服务之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。DLI服务按需收费,帮助H公司客户释放了维护人员并降低了专用带宽成本,使得维护成本相比线下数据中心降低了70%,且使用门槛低,可实现对现有业务的平滑迁移,使新业务上线周期相比之前缩短了50%。
DLI帮助H公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。
- 场景方案图1 场景方案
根据客户原始数据采集处理系统中已有的H公司的数据(例如:贸易详单数据和基础信息数据),基于CDM、OBS和DLI完成贸易统计分析。
- 数据说明
- 贸易详单数据
表1 贸易详单数据 字段名称
字段类型
字段说明
m_month
smallint
月
hs_code
string
商品编码
country
smallint
国家编码
dollar_value
double
交易金额
quantity
double
交易量
unit
smallint
计量单位
b_country
smallint
目标国家编码
imex
smallint
进出口类型
y_year
smallint
年
- 基础信息数据
表2 国家基础信息表(country) 字段名称
字段类型
字段说明
countryid
smallint
国家编码
country_en
string
国家英文名称
country_cn
string
国家中文名称
表3 更新时间信息表(updatetime) 字段名称
字段类型
字段说明
countryid
smallint
国家编码
imex
smallint
进出口类型
hs_len
smallint
商品编码长度
minstartdate
string
最小开始时间
startdate
string
开始时间
newdate
string
更新时间
minnewdate
string
最小更新时间
表4 进出口商品编码信息表(hs246) 字段名称
字段类型
字段说明
id
bigint
编号
hs
string
商品编码
hs_cn
string
商品中文名称
hs_en
string
商品英文名称
表5 单位信息表(unit_general) 字段名称
字段类型
字段说明
id
smallint
计量单位编码
unit_en
string
计量单位英文名称
unit_cn
string
计量单位中文名称
- 贸易详单数据
操作流程概述
使用DLI进行贸易统计分析的操作过程主要包括3个步骤:
步骤1:注册账号。使用DLI对数据进行分析之前,需要注册华为云账号并进行实名认证。
步骤2:上传数据。通过OBS Browser+每天上传增量数据,再通过CDM将存量数据由OBS迁移到DLI中,为使用DLI完成数据分析做准备。
步骤3:分析数据。客户业务系统对接DLI,支撑H公司客户进行贸易统计分析。
步骤2:上传数据
- 增量数据上传将增量数据上传至OBS。
- 下载OBS Browser+。下载地址请参考《对象存储服务工具指南》。
- 安装OBS Browser+。安装步骤请参考《对象存储服务工具指南》。
- 登录OBS Browser+。OBS Browser+支持AK方式登录,以及授权码登录两种登录方式。登录步骤请参考《对象存储服务工具指南》。
- 通过OBS Browser+上传数据。
在OBS Browser+页面单击“创建桶”,按照要求选择“区域”和填写“桶名”(例如:DLI_demo),创建桶成功后,返回桶列表,单击桶DLI_demo。OBS Browser+提供强大的拖拽上传功能,您可以将本地的一个或多个文件或者文件夹拖拽到对象存储的对象列表或者并行文件系统的对象列表中;同时您也可以将文件或文件夹拖拽到指定的目录上,这样可以上传到指定的目录中。
- 存量数据上传
云数据迁移(Cloud Data Migration,以下简称CDM)是一个实现多种数据源之间数据相互迁移的服务,支持华为公有云内部数据相互迁移、公有云与本地数据相互迁移。用户使用CDM服务,通过表/文件迁移方式,将H公司保存在OBS上的存量数据上传至DLI服务,使用DLI服务的计算能力进行数据分析。
- 默认数据已保存在OBS上,若需了解OBS上传操作步骤,请参考•增量数据上传。
- 在DLI服务中依次创建队列、数据库和表,具体操作请参考《数据湖探索用户指南》。
- 登录CDM管理控制台,单击右上角“购买云数据迁移服务”,创建CDM集群,如图2所示。
CDM集群的VPC选择需与DLI所在的VPC一致,且推荐子网、安全组也与DLI一致。
如果由于安全控制的原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问DLI数据库。
- CDM集群创建完成后,选择集群后面的“作业管理”,如图3所示。
- 在CDM作业管理界面,选择“连接管理> 新建连接”,进入选择连接类型的界面,如图4所示。
- 创建DLI连接,选择“数据湖探索(DLI)”后单击“下一步”,配置DLI连接参数,如图5所示:
表6 DLI连接参数 参数名
说明
取值样例
名称
连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。
dli_link
连接器
连接的数据源,即为上一步中所选的数据类型。
DLI
访问标识(AK)
访问DLI数据库时鉴权所需的AK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。
-
密钥(SK)
访问DLI数据库时鉴权所需的SK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。
-
项目ID
DLI服务所在区域的项目ID。在“我的凭证”中获取。
a46ed0f02bde42e7afe36777eb9d0f42
- 单击“保存”,CDM会自动测试连接是否可用。如果可用则提示保存成功,系统自动跳转到连接管理界面。如果测试不可用,需要重新检查连接参数是否配置正确。
- 单击“新建连接”创建OBS连接,选择“对象存储服务(OBS)”后单击“下一步”,配置OBS连接参数,如图6所示:
表7 OBS连接参数 参数名
说明
取值样例
名称
连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。
obslink
OBS服务器
配置为OBS的域名或IP地址
obs.cn-north-1.myhuaweicloud.com
端口
OBS服务器的端口
443
访问标识(AK)
访问OBS数据库时鉴权所需的AK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。
-
密钥(SK)
访问OBS数据库时鉴权所需的SK。可在管理控制台单击用户名,选择“我的凭证 > 管理访问密钥”后获取。
-
- 单击“保存”,CDM会自动测试连接是否可用。如果可用则提示保存成功,系统自动跳转到连接管理界面。如果测试不可用,需要重新检查连接参数是否配置正确。
- 选择“表/文件迁移> 新建作业”,开始创建从OBS迁移数据到DLI的任务, 如图7所示:
表8 作业配置参数 参数名
说明
取值样例
作业名称
用户自定义作业名称。
obs2dli
表9 OBS作为源连接的配置参数 参数名
说明
取值样例
源连接名称
选择所创建的OBS连接。
obslink
桶名
待迁移数据所属的桶。
-
源目录或文件
待迁移数据的具体路径。
-
文件格式
传输数据时所用的文件格式,可以选择“CSV格式”或“JSON格式”。
CSV格式
表10 DLI作为目的连接的配置参数 参数名
说明
取值样例
目的连接名称
选择所创建的DLI连接。
dlilink
数据库名称
待迁入数据的DLI服务数据库。
sqoop
表名
待迁入数据的DLI表名。该表的字段类型和格式,建议与待迁移数据的字段类型和格式保持一致。
car_detail
资源队列
待迁入数据的队列。
cdm
导入前清空数据
导入数据前,选择是否清空目的队列中的数据。
否
- 作业基本信息配置完成后,单击“下一步”,检查字段映射关系是否正确。主要检查以下几项:
- 源字段类型是否可以转换为目的字段类型。
- 源字段和目的字段对应关系是否正确。如果不正确,用户可以单击操作列下的箭头调整目的字段的顺序。
- 时间格式是否正确。如果不正确,可以手动修改格式或者选择已有的时间格式。
用户可以自定义字段内容转换。
- 单击“下一步”配置任务参数,如图8所示。
表11 任务配置参数 参数名
说明
取值样例
抽取并发数
用户自定义同时执行的抽取任务数。
1
是否定时执行
选择“是”时,用户可自定义定时任务。
否
是否写入脏数据
选择是否记录脏数据。
否
- 作业创建完成后,单击“保存并运行”,系统将跳转到作业管理界面,这里可查看作业执行进度和结果。
