贸易数据上云场景介绍
使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。
场景描述
H公司是国内一家收集主要贸易国贸易统计及买家数据的商业机构,拥有大量的贸易统计数据库,其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。
在这之前,H公司采用其自建的大数据集群,并安排专人维护,每年固定购买电信联通双线专用带宽,在机房、电力、专网、服务器、运维方面进行高额投入,但其在面对客户不断变化的业务诉求时,因为人员投入不足,大数据集群能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。
在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
CDM和DLI服务按需收费,帮助H公司客户释放了维护人员并降低了专用带宽成本,使得维护成本相比线下数据中心降低了70%,且使用门槛低,可实现已有数据的平滑迁移,使新业务上线周期相比之前缩短了50%。
场景任务
根据客户原始数据采集处理系统中已有的H公司的数据(例如:贸易详单数据和基础信息数据),基于CDM+OBS+DLI完成贸易统计分析。
- 使用DataSource语法创建OBS表时,支持orc,parquet,json,csv,carbon,avro类型。
- 使用Hive语法创建OBS表时,支持TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET, CARBON类型。
如果原始数据表存储格式不满足要求,您可以通过CDM将原始数据直接导入到DLI中进行分析,无需上传OBS。
数据说明
- 贸易详单数据
表1 贸易详单数据 字段名称
字段类型
字段说明
hs_code
string
进出口商品编码列表
country
smallint
国家基础信息
dollar_value
double
交易金额
quantity
double
交易量
unit
smallint
计量单位
b_country
smallint
目标国家基础信息
imex
smallint
进出口类型
y_year
smallint
年
m_month
smallint
月
- 基础信息数据
表2 国家基础信息表(country) 字段名称
字段类型
字段说明
countryid
smallint
国家编码
country_en
string
国家英文名称
country_cn
string
国家中文名称
表3 更新时间信息表(updatetime) 字段名称
字段类型
字段说明
countryid
smallint
国家编码
imex
smallint
进出口类型
hs_len
smallint
商品编码长度
minstartdate
string
最小开始时间
startdate
string
开始时间
newdate
string
更新时间
minnewdate
string
最小更新时间
表4 进出口商品编码信息表(hs246) 字段名称
字段类型
字段说明
id
bigint
编号
hs
string
商品编码
hs_cn
string
商品中文名称
hs_en
string
商品英文名称
表5 单位信息表(unit_general) 字段名称
字段类型
字段说明
id
smallint
计量单位编码
unit_en
string
计量单位英文名称
unit_cn
string
计量单位中文名称