更新时间:2021-09-18 GMT+08:00
分享

数据集简介

基本概念

数据集模块主要为模型训练服务提供统一的数据管理能力,数据集可以提供给特征工程,做特征处理和提取关键特征;也可以直接加入模型训练。数据集相关的两个基本概念:

  • 数据集:某业务下具有相同数据格式数据的逻辑集合。
  • 数据:数据集实例,有具体的特征和样本数据。

数据集以文件夹的形式管理数据,一个数据集中可以包含多份数据,从而对数据进行高效简洁的管理。用户可以根据数据的业务特点建立数据集,例如在大型DC PUE Case中,可以创建空调、冷站等数据集,再分别创建相应的数据。

数据来源

数据集实例来源有五种:

  • 本地上传
  • 导入样例数据
  • 导入数据集服务订阅的数据
  • 数据经过特征处理并应用特征操作流后,系统自动生成的数据
  • 数据连接或数据合并后,系统自动生成的目标数据

操作说明

导入数据的方式包括本地上传、导入样例数据、订阅数据目录数据三种。经特征处理、数据连接或数据联合后生成的数据,为系统自动生成的数据,不支持用户手动导入。

“数据集”在创建数据集、导入数据后,还支持对数据进行分析。用户可以根据数据结果对数据质量进行评估,判断数据集是否可以直接进行模型训练,或必须经过特征处理后才能加入模型训练。“数据集”还支持将多份数据进行“数据联合”或“数据连接”的操作,用于增强样本或扩展特征维度。数据集相关操作请参见数据集操作

数据集页面

“数据集”页面包含了左侧数据目录区域和右侧数据集详情区域。在左侧区域中,可以新建数据集、导入数据集的数据集实例、删除数据。在右侧区域,可以通过列表的形式查看数据详情、对数据执行特征工程、基于数据新建特征工程、跳转模型训练界面、删除数据。“数据集”页面详情请参见图1,“数据集”页面操作信息,请参见表1

图1 数据集页面
表1 数据集列表说明

区域

参数名称

参数说明

1

新建数据集。

修改数据集别名和描述。需要先选中数据集,再修改数据集信息。

删除数据集或数据。

导入数据。

当前支持本地上传、样例数据、数据目录三种方式。

数据连接。详情请参见数据连接

数据联合。详情请参见数据联合

数据同步图标。用户在数据集服务上订阅完成数据集后,支持一键式导入至模型训练服务的DatasetService数据集中。

2

输出数据名称关键字,快速检索数据。

本地上传数据的快捷入口。

选择样例数据的快捷入口。

3

名称

数据集实例的名称。

数据来源

数据集实例的来源:

  • LOCAL:用户本地上传的数据。
  • SAMPLE:样例数据。
  • DATACATALOG :在数据集服务中订阅的数据。
  • FEATURE:数据经过特征处理并应用特征操作流后,自动生成的数据。单击“FEATURE”,可跳转至对应的特征处理界面。
  • MERGE:数据连接或数据合并后,系统自动生成的目标数据。

数据类别

导入数据的类别。

包含如下选项:

  • 文本
  • 图片
  • 其他
  • 多文件与目录(文件大小限制为10G)

行数

数据的样本数量。

列数

数据的特征列数量。

状态

数据的当前状态。

创建时间

数据创建的时间。

操作

可对数据执行的操作:

  • :查看数据详情。
  • :修改数据信息,包括:实例别名、数据类型、文件编码、分隔符、标题行。
  • :删除数据。
  • :对数据执行已有特征工程的操作流,并生成新的数据。特征工程操作请参见特征工程。特征工程处理过的数据,不能再用相同的特征工程进行二次处理。
  • :使用当前数据创建新的特征工程。创建特征工程的方法请参见创建特征工程
  • :跳转至“模型训练”页面。模型训练操作请参见模型训练

DatasetService数据集

DatasetService数据集是模型训练服务预置的数据集,专门存放从数据集服务订阅的数据集。

操作方法如下所示:

  • 如果界面左侧目录不展示DatasetService,说明当前用户还没有从数据集服务订阅过数据。单击界面左上角的图标,界面左侧自动生成DatasetService数据集目录。
  • 如果界面左侧目录已展示DatasetService,则单击界面左侧的DatasetService,界面右侧展示数据集详情界面。单击界面右上角的“数据订阅”,自动打开数据集服务,并进入服务首页,请根据实际情况订阅需要的数据集。再回模型模型训练服务DatasetService数据集详情界面,单击界面右上角的“数据同步”,将数据集服务订阅的数据全量导入至模型训练服务,如图2所示。
图2 DatasetService数据集

相关文档