场景介绍
使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务,持续创新。
场景描述
H公司是国内一家收集主要贸易国贸易统计及买家数据的商业机构,拥有大量的贸易统计数据库,其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。
在这之前,H公司采用其自建的大数据集群,并安排专人维护,每年固定购买电信联通双线专用带宽,在机房、电力、专网、服务器、运维方面进行高额投入,但其在面对客户不断变化的业务诉求时,往往因为人员投入不足,大数据集群能力不匹配,而无法聚焦业务创新,使得存量100T的数据只有4%的利用率。
在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
CDM和DLI服务按需收费,帮助H公司客户释放了维护人员并降低了专用带宽成本,使得维护成本相比线下数据中心降低了70%,且使用门槛低,可实现现有数据的平滑迁移,使新业务上线周期相比之前缩短了50%。
场景任务
根据客户原始数据采集处理系统中已有的H公司的数据(例如:贸易详单数据和基础信息数据),基于CDM+OBS+DLI完成贸易统计分析。
- 使用DataSource语法创建OBS表时,支持orc,parquet,json,csv,carbon,avro类型。
- 使用Hive语法创建OBS表时,支持TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET, CARBON类型。
如果原始数据表存储格式不满足要求,您可以通过CDM将原始数据直接导入到DLI中进行分析,无需上传OBS。
数据说明
字段名称 |
字段类型 |
字段说明 |
---|---|---|
hs_code |
string |
进出口商品编码列表 |
country |
smallint |
国家基础信息 |
dollar_value |
double |
交易金额 |
quantity |
double |
交易量 |
unit |
smallint |
计量单位 |
b_country |
smallint |
目标国家基础信息 |
imex |
smallint |
进出口类型 |
y_year |
smallint |
年 |
m_month |
smallint |
月 |
字段名称 |
字段类型 |
字段说明 |
---|---|---|
countryid |
smallint |
国家编码 |
country_en |
string |
国家英文名称 |
country_cn |
string |
国家中文名称 |
字段名称 |
字段类型 |
字段说明 |
---|---|---|
countryid |
smallint |
国家编码 |
imex |
smallint |
进出口类型 |
hs_len |
smallint |
商品编码长度 |
minstartdate |
string |
最小开始时间 |
startdate |
string |
开始时间 |
newdate |
string |
更新时间 |
minnewdate |
string |
最小更新时间 |
字段名称 |
字段类型 |
字段说明 |
---|---|---|
id |
bigint |
编号 |
hs |
string |
商品编码 |
hs_cn |
string |
商品中文名称 |
hs_en |
string |
商品英文名称 |
字段名称 |
字段类型 |
字段说明 |
---|---|---|
id |
smallint |
计量单位编码 |
unit_en |
string |
计量单位英文名称 |
unit_cn |
string |
计量单位中文名称 |