快速使用DLF
数据湖工厂(Data Lake Factory,简称DLF)提供一站式的大数据协同开发平台。
用户可轻松完成数据建模,数据集成,脚本开发,作业调度,运维监控等多项任务,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。
本指南通过使用ETL Job节点将存储在OBS桶中的数据转换存储在DLI的city_trip表中,并执行DLI SQL脚本查询city_trip表为例,指导您快速上手DLF。
Step1 准备环境
步骤
① 已开通对象存储服务(OBS),并创建桶,用于存放从citibike下载的数据。
② 已开通数据湖工厂服务。每个用户从提交首个调度作业开始有30天免费期,免费期内每日执行节点次数小于5,000。免费期后如未付费则自动停止所有调度任务。
说明
① 本指南所使用示例数据来自:https://www.citibikenyc.com/system-data。下载完数据后使用OBS Browser+上传到OBS桶中,例如“s3a://dlfexample/JC-201904-citibike-tripdata.csv”。
1
创建OBS桶

2
创建数据湖工厂


单击图片可查看原图


Step3 创建数据库
步骤
① 在DLF的左侧导航栏,选择“数据开发 > 脚本开发”,进入“脚本开发”页面。
② 单击连接图标,右键单击数据连接名称,选择“新建数据库”,创建一个名为“trip”的数据库。
1
创建数据库


单击图片可查看原图


Step3 开发SQL脚本
步骤
① 在DLF的左侧导航栏,选择“数据开发 > 脚本开发”,进入工作区。
② 选择“新建SQL脚本 > DLI”,进入DLI脚本开发页面。
③ 在脚本开发页面,选择数据连接“dli”、数据库“trip”,资源队列“default”,然后输入SQL语句并运行,创建一个city_trip的表。
④ 脚本调试通过后,单击“保存”,新建脚本“trip_dll”。
1
新建DLI SQL脚本

2
开发DLI SQL脚本


单击图片可查看原图


Step4 开发作业
步骤
① 在DLF的左侧导航栏,选择“数据开发 > 作业开发”,进入工作区。
② 单击“新建作业”,新建一个作业名为“import_trip”的批处理作业。新建完成后,进入作业开发页面。
③ 将“ETL Job”节点拖到画布中,在“ETL配置””中配置从OBS到DLI的数据转换。
④ “ETL Job”节点的属性配置完成后,单击“测试运行”。
⑤ 作业测试运行通过后,单击保存。
1
创建DLF作业-01
2
创建DLF作业-02

3
配置OBS到DLI的数据转换

4
配置ETL Job节点属性


单击图片可查看原图


Step5 查询DLI表数据
步骤
① 在DLF的左侧导航栏,选择“数据开发 > 脚本开发”,进入工作区。
② 选择“新建SQL脚本 > DLI”,进入DLI脚本开发页面。
③ 在脚本开发页面,选择数据连接“dli”、数据库“trip”,资源队列“default”,然后输入SQL语句SELECT * FROM city_trip并运行。
④ 在“执行结果”页面查看数据。
⑤ 脚本调试通过后,单击“保存”,新建脚本“trip_dll2”。
1
开发DLI SQL脚本

2
查看city_trip表数据

单击图片可查看原图


