Druid数据管理
Druid数据管理,需要创建数据源用来保存并管理数据。
前提条件
- 已申请集群。
- 已获取服务运维岗位权限,权限申请操作请参见申请权限。
新建表
- 进入运维中心工作台。
- 在顶部导航栏选择自有服务。
- 单击,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的 ,进入“数据开发”页面。
- 单击“数据管理 > Druid”,进入Druid页面。
- 单击“新建数据源”,进入New Druid DataSource页面。
- 配置数据源参数,参数说明如表1所示。配置完成后,单击“确定”。
表1 新建数据源参数说明 参数名称
参数说明
数据源名称
设置Druid数据源名称,只能包含小写字母、数字、下划线。
一级主题
选择一级主题,如果没有可选主题,可以单击“新建主题”,新建后刷新并选择。
二级主题
选择二级主题,如果没有可选主题,可以单击“新建主题”,新建后刷新并选择。
层次
选择层次。
描述
输入表描述。
集群
选择Druid表所在的集群。
TTL(D)
TTL即为生命周期,决定了大盘上实时监控可以查过去多少天的数据。默认是168小时(7天),可以适当减少,不建议超过该值。若要长期存储,建议汇聚到DWS中。
分区粒度(day)
Druid处理的是事件数据,每条数据都会带有时间戳,可以使用时间进行分区。支持3种分区粒度(day、six_hour、hour),默认为天级分区粒度,即每天的数据都会被单独存储和查询,分区过大时(超过5G),需要将分区粒度降到hour或者six_hour。
汇聚粒度
汇聚粒度决定了数据如何按分钟、小时等进行聚合。支持4种汇聚粒度(second 、minute、five_minute、hour),默认为分钟级粒度(大盘需要分钟级监控时使用)。
时间列名
默认为timestamp。
时间格式
默认为auto。
从Kafka Topic获取数据结构
选择Kafka Topic。
维度列表
支持两种创建维度的方式:
- 从Kafka Topic中获取维度字段(推荐)。
- 如果有些直接从Kafka Topic中获取的字段名称不符合预期,可以自定义维度。
不建议将离散度较大的值作为维度,散列度会过高,导致分区过大,影响正常的持久化与查询性能。
指标列表
支持两种创建指标的方式:
- 从Kafka Topic中获取指标(推荐)。
- 如果有些直接从Kafka Topic中获取的字段名称不符合预期,可以自定义指标。
创建提取任务
- 在Druid页面列表中,单击待编辑任务的Druid数据源所在行的“编辑任务”,进入该数据源提取任务页面。
- 单击“创建任务”,进入“创建任务”页面。
- 配置任务参数,参数说明如表2所示。配置完成后,单击“确定”。
表2 配置任务参数说明 参数名称
参数说明
名称
Druid提取任务名,默认与数据源同名,无需手动填写。
描述
输入描述信息。
调度集成
定时执行Druid提取任务的调度集群。
Kafka Topic
选择需要消费数据的kafka topic。
使用最早offset消费
首次提交的任务设置为false,补数据时配置为true。
任务数
需要多少个并发进程同时读取该druid任务所对应的kafka topic,任务数(默认为2)应该小于topic分区数,并且能被topic分区数所整除,这样每个druid的子任务可以读取相同的数据量,达到负载均衡的效果。
指标列表
该指标列表由创建数据源时选择的指标决定,如果指标与对应的kafka字段名一致,会自动填充,如果不一致,需手动添加映射。
- 任务配置完成后,在Druid页面列表中,单击已编辑的任务的Druid数据源所在行的“启动”,启动导流任务.
在数据源生命周期内,Druid集群会持续提取Kafka数据到Druid数据源中。
共享Druid数据
- 在Druid页面列表中,单击待共享数据的DruidDruid表所在行的“共享”,进入“表共享”页面。
- 单击“添加表共享”,进入“共享配置”页面。
- 配置共享参数,配置完成后,单击“确定”。
更多操作
您还可以对Druid进行以下操作。
操作名称 |
操作步骤 |
---|---|
导入 |
|
查看导入进度 |
在Druid页面单击“查看导入进度”。 |
导出 |
|
编辑Tags |
|
关联Tags |
|
编辑数据源 |
在Druid页面列表中,单击待编辑Druid数据源所在行的“编辑”。 |
删除数据源 |
在Druid页面列表中,单击待删除Druid数据源所在行的“删除”。 |
查看操作历史 |
在Druid页面列表中,单击待查看操作历史的Druid数据源所在行的“操作历史”。 |
查看历史版本信息 |
|