数据集
学件项目中预置了样例数据,因此《学件开发指南》使用预置样例数据,讲解学件的操作流程。
如果用户需要使用自己的数据,可以参考新建数据集和导入数据,创建新的数据集,并导入数据。
导入数据要求
- 建议训练数据和测试数据分成两个实例,方便算法查找训练或测试数据的位置。
- 训练数据可以是带标签或者不带标签的数据,测试数据一定是带标签的数据,方便评估模型执行效果。
查看学件项目预置的样例数据
- 等待学件项目创建完成后,在模型训练服务首页的项目列表中,找到创建完成的学件项目。单击项目所在行的图标。
进入项目编辑界面。图1 学件项目
- 在菜单栏中,单击“数据集”,进入“数据集”界面。
查看学件项目中预置的两类样例数据UnlabeledData和AbnormalDetectionData。使用每类样例数据体验学件能力,会对应到不同的算法,训练生成不同的模型。
新建数据集和导入数据
- 在数据集菜单页面,单击界面左上角的图标。
弹出“导入数据”对话框,如图2所示。配置“导入数据”对话框参数,具体参见表1。
表1 导入数据参数说明 参数名称
参数说明
数据集
输入自定义名称。
单击“创建”后,会自动创建此数据集。
数据类别
导入数据的类别。
实例名称
本次导入数据的名称。
实例别名
本次导入数据的别名。
数据来源
数据上传的途径。
包含如下方式:
本地上传-文件大小限制为60M,文本支持csv和txt
数据来源选择“本地上传”时可见,表示数据文件所在的用户本地路径。
为避免后续处理数据时出错,请按要求上传csv和txt格式的数据文件。
样例数据-请选择数据集
数据来源选择“样例数据”时可见。
系统默认给出六个数据实例:
- iris_raw:鸢尾花原始测试集
- iris_training:鸢尾花训练集
- iris_test:鸢尾花测试集
- KPI_15mins:KPI 15分钟数据集
- KPI_60mins:KPI 60分钟数据集
- TPC-iSPS11_60:KPI异常检测数据集
- amazon:迁移学习Office-31 A(Amazon)数据集
- dslr:迁移学习Office-31 D(DSLR)数据集
- webcam:迁移学习Office-31 W(Webcam)数据集
- caltech:迁移学习Caltech-256数据集
其中,iris_raw、KPI_15mins、KPI_60mins数据集中包含空值。用户可以通过特征工程进行数据修复,剔除空值。
分隔符
用户根据导入数据文件的格式进行选择,用于系统识别数据字段。
当前支持“,”、“;”和“|”三种分隔符。
文件编码
数据文件的编码格式。
当前支持UTF-8、GBK和GB2312三种格式。
标题行
数据是否包含标题行,用户根据导入数据文件的格式进行选择。
包含如下选项:
- 有标题行
- 无标题行
- 单击“创建”,导入数据文件。
如果导入数据所在的“状态”列显示“导入成功”,说明数据导入成功。
- (可选)分析数据。