新建数据集和导入数据

更新时间：2021-09-18 GMT+08:00

查看PDF

用户根据数据的业务类别创建数据集，并导入数据。

基本功能介绍

系统支持本地上传数据、从公共空间中导入样例数据至模型训练服务。

操作步骤如下所示。

单击“项目总览”页面“数据集”下方的“创建”。

进入“数据集”页面，弹出“导入数据”对话框，如图1所示。

图1 导入数据

参数配置说明，如表1所示。

表1 参数说明
参数名称	参数说明
数据集	支持用户编辑生成新的数据集，示例：Harddisk。
数据类别	导入数据的类别。包含如下选项：文本图片其他多文件与目录（文件大小限制为10G）。选择当前选项，对应的操作详情，如支持超大文件（10G）上传所示。
实例名称	数据集实例的名称。只能以字母（A~Z a~z）开头，由字母、数字（0~9）、下划线（_）、（-）组成，不能以下划线或中划线结尾，且长度为[1-128]个字符。
实例别名	数据集实例的别名。由字母、汉字、数字（0~9）、下划线（_）、中划线（-），圆括号组成，且长度为[1-128]个字符。创建别名后，系统将优先以数据集别名显示数据集。
数据来源	数据上传的途径。包含如下方式：本地上传：本地上传数据。样例数据：模型训练服务环境中预置的用户体验数据。包括鸢尾花原始测试集、鸢尾花训练集、鸢尾花测试集、KPI 15分钟数据集、KPI 60分钟数据集、KPI异常检测数据集、4份迁移学习数据集。其中鸢尾花原始测试集、KPI 15分钟数据集和KPI 60分钟数据集中包括空值，用户可以通过特征工程进行数据修复，剔除空值。
本地上传-文件大小限制为60M，文本支持csv和txt	数据来源选择“本地上传”时可见，表示数据文件所在的用户本地路径。为避免后续处理数据时出错，请按要求上传csv和txt格式的数据文件。
样例数据-请选择数据集	数据来源选择“样例数据”时可见。系统默认给出六个数据集实例： iris_raw：鸢尾花原始测试集 iris_training：鸢尾花训练集 iris_test：鸢尾花测试集 KPI_15mins：KPI 15分钟数据集 KPI_60mins：KPI 60分钟数据集 TPC-iSPS11_60：KPI异常检测数据集 amazon：迁移学习Office-31 A(Amazon)数据集 dslr：迁移学习Office-31 D(DSLR)数据集 webcam：迁移学习Office-31 W(Webcam)数据集 caltech：迁移学习Caltech-256数据集其中，iris_raw、KPI_15mins、KPI_60mins数据集中包含空值。用户可以通过特征工程进行数据修复，剔除空值。
文件编码	数据文件的编码格式。当前支持UTF-8、GBK和GB2312三种格式。
分隔符	用户根据导入数据文件的格式进行选择，用于系统识别数据字段。当前支持“,”、“；”和“\|”三种分隔符。
标题行	数据是否包含标题行，用户根据导入数据文件的格式进行选择。包含如下选项：有标题行无标题行

单击“创建”，导入数据文件。

如果导入数据所在的“状态”列显示“导入成功”，说明数据导入成功。
单击数据集实例所在行对应“操作”列的图标，进入数据详情界面，如图2所示。

图2 数据详情
单击数据集文件所在行对应“操作”列的“查看”，可以查看数据内容，如所图3示。

单击数据集文件所在行对应“操作”列的“删除”，可以删除当前数据集。
图3 数据内容
单击数据文件所在行对应“操作”列的“元数据”，进入数据分析界面，如图4所示。

说明：当前操作仅对一个数据集做数据分析操作，如果需要对当前数据集实例界面的数据集列表都做数据分析操作，请单击如图2所示的数据集实例“状态”中的“元数据”按钮。
图4 数据分析
请根据实际情况，从下拉框中选择AI引擎和对应的规格（数据量小时无此选项），单击“数据分析”。

可查看数据集实例的详细信息，包括字段名称、字段类型、数据分布、有效值、空值、异常值、最大值、最小值、均值、方差、分位数等，如图5所示。

当前界面，支持如下操作：
- 在数据分析结果界面的“操作”列，单击图标，可修改数据字段类型，目前数据类型可支持修改“TEXT”、“REAL”和“INTEGER”三种类型。
- 单击图标，可设置当前字段为标签列。
  图5 数据分析结果

支持超大文件（10G）上传

支持多文件多目录上传，最多可上传10G大小。支持断点续传功能。

在数据集界面，单击界面左上角的图标。

弹出“导入数据”对话框，如图6所示。

参数说明如下所示：
- 数据集：从下拉框中选择已有数据集或编辑生成新数据集。示例“Case”。
- 数据类别：从下拉框中选择“多文件与目录（文件大小限制为10G）”。
- 实例名称：请根据实际情况配置。示例设置为“data”。
- 实例别名：请根据实际情况配置。支持设置为中文字。
  图6 导入数据
单击“创建”，生成名称为“data”的数据。
在左侧数据集目录中，单击“data”，如图7所示。

右侧展示“data”的数据详情界面。
图7 样例数据
单击界面左上角的“上传”，进入文件拖拽上传面板界面，如图8所示。

图8 文件上传面板
从本地同时拖拽数据文件和目录到灰色边框展示区域，如图9所示。

目前支持的功能和限制如下所示：
- 当前右侧面板最多支持1000个文件，总大小最大为10G的上传任务。
- 文件上传过程中，请勿关闭或刷新页面，否则会导致数据上传中断。
- 大文件上传任务中断后，仍可从断点处继续上传。
  操作方式为：单击上传终端的文件右侧的图标，从本地重新选择当前文件后，单击界面右上角的“上传”，完成断点续传。
- 支持删除或更新覆盖已上传的文件。
图9 拖拽多文件和目录
单击界面右上角的“上传”，等待数据上传完成，如图10所示。

批量上传本地文件时，支持按页分批上传文件。
图10 上传数据
等待数据上传完成后，单击左侧数据集目录中的“data”。

如图11所示，多文件数据集支持按目录结构进行树状展示。右侧文件列表支持分页展示，且支持对当前目录下面的文件进行前缀搜索（不支持模糊匹配）。

在右侧文件列表界面，单击具体数据文件右侧的“查看”，支持查看不同类型文件内容，包括：
- csv格式数据文件表格方式展示
- json文件格式化展示
- json文件、python等代码文件、markdown文件的CodeMirror渲染展示
- 绝大多数格式的图片文件
- mp3/ogg/wav格式的音频播放
- mp4/mkv/webm格式的视频播放
   图11 data数据