更新时间:2024-12-16 GMT+08:00
分享

可视化创建数据集

数据集作为数据源和可视化展示的中间环节,是可视化分析的基础,您可以将需要分析的数据表创建为数据集,DataArts Insight支持可视化配置或自定义SQL方式创建数据集。本文为您介绍如何通过可视化的方式创建数据集。

前提条件

选择数据表

  1. 登录智能数据洞察控制台
  2. 单击管理控制台左上角的,选择区域,单击左下角的企业项目选择企业项目。
  3. 在控制台右侧“我的项目”单击项目名称,进入项目页面。
  4. 单击“数据管理 > 数据集 > 新建数据集”,进入新建数据集页面。
  5. 双击或者拖拽数据表,数据表被成功添加至操作面板。
  6. 单击数据预览区域的“刷新预览”,即可查看数据表的数据。
  7. 单击数据表的,选择需要呈现的字段,如需关联其他数据表,请参见多表级联建模
    图1 字段选择
  8. 输入数据集名称,单击“确定”完成数据集创建。

字段配置

通过字段配置,您可以按需配置数据集的字段信息,包括编辑、克隆隐藏、复制为指标、转化为维度/度量、默认聚合方式、数值展示格式、删除等操作。

  • 预览数据表时只支持预览前100条数据,数据不足100条则显示全部数据。
  • 当字段被用于计算字段、分组维度、过滤条件中,不支持修改字段类型、维度或度量转换、删除。
  • 暂不支持复制日期字段,您可以将日期字段转成文本类型后,再复制字段。
  1. 进入字段配置的页面,字段配置的入口如下所示:
    • 在字段列表区,单击字段后的配置字段。
    • 在数据预览区,单击字段后的配置字段。
    • 图2 配置字段

  2. 填入字段配置的参数,参数说明如表1所示。
表1 配置项说明

功能名

说明

编辑

对字段的名称和描述内容进行编辑。

  • 字段原名:可对字段原名进行编辑,输入不能为空,且名称只能由中英文、数字、英文括号、斜杠(/)、反斜杠(\)、下划线(_)及中划线(-)组成且不超过512个字符。
  • 物理字段:物理表对应的字段名,不支持修改。
  • 字段描述:补充字段描述信息。
  • 绑定条件:当且仅当用户使用这个维度时,才会应用此维度的绑定条件。编辑条件请参见添加条件
  • 默认筛选:设置默认筛选器。编辑条件请参见添加条件

    默认过滤器规则:如果对某个字段配置了默认过滤器,如 省份 =“上海”。

    1. 如果报表或者问答中未出现关于省份字段的过滤器,则最终的过滤器条件会追加省份 =“上海”字段。
    2. 如果报表或者问答中出现了关于省份字段的过滤器,则最终的过滤器条件会忽略省份 =“上海”字段。
  • 添加条件:单击“添加条件”。
    • 选择筛选字段、筛选方式、固定值筛选条件和取值。

      筛选字段:筛选需要设置规则的数据集的字段,支持筛选维度和度量字段,不支持多选,如需对其他字段配置规则请重复添加条件。

      筛选方式:支持“条件筛选”、“枚举筛选”、“表达式筛选”。

      说明:

      只有维度支持枚举值筛选方式。

      固定值条件:条件筛选时需要选择固定值条件,例如等于、不等于、大于、大于等于、小于、小于等于等规则。

      固定值:输入筛选条件的取值,如果是枚举筛选,在下拉框中勾选字段值。

    • 如需继续为其他字段设置规则,可单击“添加规则”。
    • 多条件规则时,需要设置规则的关系:

      且:用户可查看同时满足规则A和规则B的字段值、即规则A和规则B的交集。

      或:用户可以查看满足规则A或规则B的字段值、即规则A和规则B的并集。

      如需添加与规则A和规则B并列的规则,可以单击“添加关系”。即新建了规则组C。规则组C与规则A和规则B同一级别。

克隆

该功能用于快速复制某字段,生成的新字段会带上副本标识。

  1. 单击数据预览页面下需要修改字段右侧的,在弹出页面单击“克隆”。
  2. 单击克隆之后生成的新字段会带上副本标识。且字段的物理字段名不会发生变化字段原名会发生变化。

    例如product_name,克隆后字段为product_name1。

隐藏

将字段进行隐藏。

隐藏字段后,使用这个数据集制作仪表板、大屏等时,不会出现这个字段。

默认聚合方式

包含无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体方差、样本方差、区间起始值、区间结束值。

说明:

区间起始值、区间结束值只支持单项设置,不支持同时设置。

数值展示格式

无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。

转换为度量/转换为维度

将字段的类型进行转换,支持维度和度量的相互转换。

维度类型转换

可将字段维度或度量的类型转换成其他类型,支持转换为数字、日期、文本。且日期字段支持配置数据格式。

说明:
  • 日期增加了秒和毫秒的时间戳。
  • 维度支持时间戳格式转换时间。

移动到

此功能在新建层次结构/数据集为表格视图时才可使用,请参见新建层次结构

删除

删除字段。

删除字段后,当您需要找回该字段时,可以单击画布中的表,在右侧面板中选择并添加该字段即可。

可视化配置(可选)

DataArts Insight提供的数据集的可视化配置功能,帮助您更加便捷地配置数据集字段,提供了多种参数设置,包括字段名称、字段类型、默认聚合方式、数值展示格式、字段描述、是否允许搜索以及分析优先级等。

  1. 单击“可视化配置”,进入可视化配置页面。
  2. 选择需要修改的字段,并按需编辑字段,参数说明如表2所示。

    单击可批量配置字段,当前支持批量转换为维度或度量,支持批量设置隐藏、取消隐藏,支持批量删除字段。

    图3 可视化配置页面
    表2 可视化配置参数说明

    参数名称

    说明

    字段名称|物理字段

    • 字段名称,在该页面支持自定义,字段名称会显示在仪表板和大屏制作的图表中。
    • 物理字段不支持修改。

    字段类型

    字段支持的类型,包括日期、文本、数字。其中日期支持多种格式设置。

    默认聚合

    维度字段不支持设置,仅度量字段支持设置聚合方式。

    支持以下设置:无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体标方差、样本方差、区间起始值、区间结束值。

    说明:

    区间起始值、区间结束值只支持单项设置,不支持同时设置。

    数值展示格式

    无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。

    字段描述

    对字段的相关信息的描述。

    允许搜索

    是否允许搜索枚举值,用于标记字段的枚举值在训练时是否允许被搜索,当前仅能提取最多1000个枚举值。

    说明:

    仅支持文本类型。

    分析优先级

    用于确定智能分析助手中的自动见解功能从数据集选用字段分析时的优先级,最多支持配置10个高分析优先级字段。

    操作

    支持对字段的删除和隐藏,此处可对已隐藏的字段进行取消隐藏。

    说明:

    删除数据集中的字段时要检查该字段是否在大屏、报表和权限配置中有使用。

问答配置(可选)

当新建的数据集为智能分析助手关联数据集时,可以进行问答配置,以优化智能分析助手的问答体验。

  • 同义词配置
    智能分析助手将根据配置的同义词理解问题与数据,配置同义词可以提高问答的准确性。
    1. 单击“问答配置”,进入问答配置界面。
    2. 在同义词框中输入字段的同义词,按回车键保存,例如可将“product_name”的同义词设置为商品名称、产品名。
    3. 发布同义词,单击操作列的“发布同义词”,发布后的同义词保存到公共词库中。
      图4 同义词配置
    4. 枚举值同义词配置:
      1. 单击“操作 > 值同义词”,进入枚举值同义词编辑界面。
      2. 在枚举值框中输入枚举值,在同义词框中输入同义词,按回车键保存。
      3. 发布枚举值同义词,单击“操作 > 发布同义词”,发布后的同义词在问答界面不可删除,在同义词界面可删除。
    5. 一键联想同义词:
      1. 勾选需要联想的字段,勾选后单击“一键联想”,公共词库中的字段和枚举值同义词会进行匹配,如果该字段在公共词库中无匹配的同义词,则匹配不上。
  • 关联字段配置
    配置关联字段后,智能分析助手将基于维度、度量的关联字段推荐关联问题,帮助用户更全面地了解数据。
    • “维度”的关联字段为“度量”时,不会在智能分析助手问答界面生成关联问题,建议将关联字段配置为“维度”。
    • “度量”的关联字段仅有“维度”时,不会在智能分析助手问答界面生成关联问题,建议将关联字段配置为“度量”,或者同时包含“度量”和“维度”。
    • 按“指标”、“维度”、“度量”三种分类生成关联问题,每种分类最多生成1个关联问题,总共不超过3个关联问题。
    1. 单击“问答配置”,进入问答配置界面。
    2. 单击,进入添加关联字段界面,选择需要关联的字段。本例将“product_name”的关联字段配置为“product_type”。
      图5 添加关联字段
    3. 单击“确定”,关联字段配置成功。在智能分析助手界面进行问答“product_name”有关的问题时,将自动推荐与“product_type”相关的问题。

批量修改名称

批量修改名称是将用户要分析的数据表物理字段、字段名称以及字段描述批量上传,通过自动填充提升效率和用户体验,主要用于数据表包含物理字段较多的场景。

  • 限制条件:上传文件限制只能上传.xlsx、.xls、.csv格式的文件,且不能超过3M。
  • 操作步骤:
    1. 进入数据集编辑界面,单击“更多 > 批量修改名称”,进入上传文件页面。
      图6 批量修改名称

    2. 单击“下载模板”,按照模板中填写数据。
    3. 单击“添加文件”,上传填写完成的表格。
      • 字段预览最多显示100条,实际上携带数据表中2000条数据。
      • 每次文件上传最多可上传2000条,剩余数据重新上传。
    4. 单击“确定”,完成字段名称的批量修改。

相关文档