新建数据集和导入数据
用户根据数据的业务类别创建数据集,并导入数据。
基本功能介绍
系统支持本地上传数据、从公共空间中导入样例数据至模型训练服务。
操作步骤如下所示。
- 单击“项目总览”页面“数据集”下方的“创建”。
进入“数据集”页面,弹出“导入数据”对话框,如图1所示。参数配置说明,如表1所示。
表1 参数说明 参数名称
参数说明
数据集
支持用户编辑生成新的数据集,示例:Harddisk。
数据类别
导入数据的类别。
包含如下选项:
- 文本
- 图片
- 其他
- 多文件与目录(文件大小限制为10G)。选择当前选项,对应的操作详情,如支持超大文件(10G)上传所示。
实例名称
数据集实例的名称。
只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。
实例别名
数据集实例的别名。
由字母、汉字、数字(0~9)、下划线(_)、中划线(-),圆括号组成,且长度为[1-128]个字符。创建别名后,系统将优先以数据集别名显示数据集。
数据来源
数据上传的途径。
包含如下方式:- 本地上传:本地上传数据。
本地上传-文件大小限制为60M,文本支持csv和txt
数据来源选择“本地上传”时可见,表示数据文件所在的用户本地路径。
为避免后续处理数据时出错,请按要求上传csv和txt格式的数据文件。
样例数据-请选择数据集
数据来源选择“样例数据”时可见。
系统默认给出六个数据集实例:
- iris_raw:鸢尾花原始测试集
- iris_training:鸢尾花训练集
- iris_test:鸢尾花测试集
- KPI_15mins:KPI 15分钟数据集
- KPI_60mins:KPI 60分钟数据集
- TPC-iSPS11_60:KPI异常检测数据集
- amazon:迁移学习Office-31 A(Amazon)数据集
- dslr:迁移学习Office-31 D(DSLR)数据集
- webcam:迁移学习Office-31 W(Webcam)数据集
- caltech:迁移学习Caltech-256数据集
其中,iris_raw、KPI_15mins、KPI_60mins数据集中包含空值。用户可以通过特征工程进行数据修复,剔除空值。
文件编码
数据文件的编码格式。
当前支持UTF-8、GBK和GB2312三种格式。
分隔符
用户根据导入数据文件的格式进行选择,用于系统识别数据字段。
当前支持“,”、“;”和“|”三种分隔符。
标题行
数据是否包含标题行,用户根据导入数据文件的格式进行选择。
包含如下选项:
- 有标题行
- 无标题行
- 单击“创建”,导入数据文件。
如果导入数据所在的“状态”列显示“导入成功”,说明数据导入成功。
- 单击数据集实例所在行对应“操作”列的图标,进入数据详情界面,如图2所示。
- 单击数据集文件所在行对应“操作”列的“查看”,可以查看数据内容,如所图3示。
- 单击数据文件所在行对应“操作”列的“元数据”,进入数据分析界面,如图4所示。
说明:当前操作仅对一个数据集做数据分析操作,如果需要对当前数据集实例界面的数据集列表都做数据分析操作,请单击如图2所示的数据集实例“状态”中的“元数据”按钮。
- 请根据实际情况,从下拉框中选择AI引擎和对应的规格(数据量小时无此选项),单击“数据分析”。
可查看数据集实例的详细信息,包括字段名称、字段类型、数据分布、有效值、空值、异常值、最大值、最小值、均值、方差、分位数等,如图5所示。
当前界面,支持如下操作:
- 在数据分析结果界面的“操作”列,单击图标,可修改数据字段类型,目前数据类型可支持修改“TEXT”、“REAL”和“INTEGER”三种类型。
- 单击图标,可设置当前字段为标签列。
支持超大文件(10G)上传
支持多文件多目录上传,最多可上传10G大小。支持断点续传功能。
- 在数据集界面,单击界面左上角的图标。
弹出“导入数据”对话框,如图6所示。
参数说明如下所示:
- 数据集:从下拉框中选择已有数据集或编辑生成新数据集。示例“Case”。
- 数据类别:从下拉框中选择“多文件与目录(文件大小限制为10G)”。
- 实例名称:请根据实际情况配置。示例设置为“data”。
- 实例别名:请根据实际情况配置。支持设置为中文字。
- 单击“创建”,生成名称为“data”的数据。
- 在左侧数据集目录中,单击“data”,如图7所示。
- 单击界面左上角的“上传”,进入文件拖拽上传面板界面,如图8所示。
- 从本地同时拖拽数据文件和目录到灰色边框展示区域,如图9所示。
目前支持的功能和限制如下所示:
- 单击界面右上角的“上传”,等待数据上传完成,如图10所示。
- 等待数据上传完成后,单击左侧数据集目录中的“data”。
如图11所示,多文件数据集支持按目录结构进行树状展示。右侧文件列表支持分页展示,且支持对当前目录下面的文件进行前缀搜索(不支持模糊匹配)。
在右侧文件列表界面,单击具体数据文件右侧的“查看”,支持查看不同类型文件内容,包括:
- csv格式数据文件表格方式展示
- json文件格式化展示
- json文件、python等代码文件、markdown文件的CodeMirror渲染展示
- 绝大多数格式的图片文件
- mp3/ogg/wav格式的音频播放
- mp4/mkv/webm格式的视频播放