可视化创建数据集
数据集作为数据源和可视化展示的中间环节,是可视化分析的基础,您可以将需要分析的数据表创建为数据集,DataArts Insight支持可视化配置或自定义SQL方式创建数据集。本文为您介绍如何通过可视化的方式创建数据集。
选择数据表
字段配置
通过字段配置,您可以按需配置数据集的字段信息,包括编辑、克隆隐藏、复制为指标、转化为维度/度量、默认聚合方式、数值展示格式、删除等操作。
- 预览数据表时只支持预览前100条数据,数据不足100条则显示全部数据。
- 当字段被用于计算字段、分组维度、过滤条件中,不支持修改字段类型、维度或度量转换、删除。
- 暂不支持复制日期字段,您可以将日期字段转成文本类型后,再复制字段。
- 进入字段配置的页面,字段配置的入口如下所示:
- 在字段列表区,单击字段后的配置字段。
- 在数据预览区,单击字段后的配置字段。
-
图2 配置字段
- 填入字段配置的参数,参数说明如表1所示。
功能名 |
说明 |
---|---|
编辑 |
对字段的名称和描述内容进行编辑。
|
克隆 |
该功能用于快速复制某字段,生成的新字段会带上副本标识。 |
隐藏 |
将字段进行隐藏。 隐藏字段后,使用这个数据集制作仪表板、大屏等时,不会出现这个字段。 |
默认聚合方式 |
包含无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体方差、样本方差、区间起始值、区间结束值。
说明:
区间起始值、区间结束值只支持单项设置,不支持同时设置。 |
数值展示格式 |
无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。 |
转换为度量/转换为维度 |
将字段的类型进行转换,支持维度和度量的相互转换。 |
维度类型转换 |
可将字段维度或度量的类型转换成其他类型,支持转换为数字、日期、文本。且日期字段支持配置数据格式。
说明:
|
移动到 |
此功能在新建层次结构/数据集为表格视图时才可使用,请参见新建层次结构。 |
删除 |
删除字段。 删除字段后,当您需要找回该字段时,可以单击画布中的表,在右侧面板中选择并添加该字段即可。 |
可视化配置(可选)
DataArts Insight提供的数据集的可视化配置功能,帮助您更加便捷地配置数据集字段,提供了多种参数设置,包括字段名称、字段类型、默认聚合方式、数值展示格式、字段描述、是否允许搜索以及分析优先级等。
- 单击“可视化配置”,进入可视化配置页面。
- 选择需要修改的字段,并按需编辑字段,参数说明如表2所示。
单击可批量配置字段,当前支持批量转换为维度或度量,支持批量设置隐藏、取消隐藏,支持批量删除字段。
图3 可视化配置页面
表2 可视化配置参数说明 参数名称
说明
字段名称|物理字段
- 字段名称,在该页面支持自定义,字段名称会显示在仪表板和大屏制作的图表中。
- 物理字段不支持修改。
字段类型
字段支持的类型,包括日期、文本、数字。其中日期支持多种格式设置。
默认聚合
维度字段不支持设置,仅度量字段支持设置聚合方式。
支持以下设置:无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体标方差、样本方差、区间起始值、区间结束值。
说明:区间起始值、区间结束值只支持单项设置,不支持同时设置。
数值展示格式
无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。
字段描述
对字段的相关信息的描述。
允许搜索
是否允许搜索枚举值,用于标记字段的枚举值在训练时是否允许被搜索,当前仅能提取最多1000个枚举值。
说明:仅支持文本类型。
分析优先级
用于确定智能分析助手中的自动见解功能从数据集选用字段分析时的优先级,最多支持配置10个高分析优先级字段。
操作
支持对字段的删除和隐藏,此处可对已隐藏的字段进行取消隐藏。
说明:删除数据集中的字段时要检查该字段是否在大屏、报表和权限配置中有使用。
问答配置(可选)
当新建的数据集为智能分析助手关联数据集时,可以进行问答配置,以优化智能分析助手的问答体验。
- 同义词配置
智能分析助手将根据配置的同义词理解问题与数据,配置同义词可以提高问答的准确性。
- 单击“问答配置”,进入问答配置界面。
- 在同义词框中输入字段的同义词,按回车键保存,例如可将“product_name”的同义词设置为商品名称、产品名。
- 发布同义词,单击操作列的“发布同义词”,发布后的同义词保存到公共词库中。
图4 同义词配置
- 枚举值同义词配置:
- 单击“操作 > 值同义词”,进入枚举值同义词编辑界面。
- 在枚举值框中输入枚举值,在同义词框中输入同义词,按回车键保存。
- 发布枚举值同义词,单击“操作 > 发布同义词”,发布后的同义词在问答界面不可删除,在同义词界面可删除。
- 一键联想同义词:
- 勾选需要联想的字段,勾选后单击“一键联想”,公共词库中的字段和枚举值同义词会进行匹配,如果该字段在公共词库中无匹配的同义词,则匹配不上。
- 关联字段配置
配置关联字段后,智能分析助手将基于维度、度量的关联字段推荐关联问题,帮助用户更全面地了解数据。
- “维度”的关联字段为“度量”时,不会在智能分析助手问答界面生成关联问题,建议将关联字段配置为“维度”。
- “度量”的关联字段仅有“维度”时,不会在智能分析助手问答界面生成关联问题,建议将关联字段配置为“度量”,或者同时包含“度量”和“维度”。
- 按“指标”、“维度”、“度量”三种分类生成关联问题,每种分类最多生成1个关联问题,总共不超过3个关联问题。
- 单击“问答配置”,进入问答配置界面。
- 单击,进入添加关联字段界面,选择需要关联的字段。本例将“product_name”的关联字段配置为“product_type”。
图5 添加关联字段
- 单击“确定”,关联字段配置成功。在智能分析助手界面进行问答“product_name”有关的问题时,将自动推荐与“product_type”相关的问题。
批量修改名称
批量修改名称是将用户要分析的数据表物理字段、字段名称以及字段描述批量上传,通过自动填充提升效率和用户体验,主要用于数据表包含物理字段较多的场景。
- 限制条件:上传文件限制只能上传.xlsx、.xls、.csv格式的文件,且不能超过3M。
- 操作步骤:
- 进入数据集编辑界面,单击“更多 > 批量修改名称”,进入上传文件页面。
图6 批量修改名称
- 单击“下载模板”,按照模板中填写数据。
- 单击“添加文件”,上传填写完成的表格。
- 字段预览最多显示100条,实际上携带数据表中2000条数据。
- 每次文件上传最多可上传2000条,剩余数据重新上传。
- 单击“确定”,完成字段名称的批量修改。
- 进入数据集编辑界面,单击“更多 > 批量修改名称”,进入上传文件页面。