更新时间:2021-09-18 GMT+08:00
分享

数据集

学件项目中预置了样例数据,因此《学件开发指南》使用预置样例数据,讲解学件的操作流程。

如果用户需要使用自己的数据,可以参考新建数据集和导入数据,创建新的数据集,并导入数据。

导入数据要求

  • 建议训练数据和测试数据分成两个实例,方便算法查找训练或测试数据的位置。
  • 训练数据可以是带标签或者不带标签的数据,测试数据一定是带标签的数据,方便评估模型执行效果。

查看学件项目预置的样例数据

  1. 等待学件项目创建完成后,在模型训练服务首页的项目列表中,找到创建完成的学件项目。单击项目所在行的图标。

    进入项目编辑界面。
    图1 学件项目

  2. 在菜单栏中,单击“数据集”,进入“数据集”界面。

    查看学件项目中预置的两类样例数据UnlabeledData和AbnormalDetectionData。使用每类样例数据体验学件能力,会对应到不同的算法,训练生成不同的模型。

新建数据集和导入数据

  1. 在数据集菜单页面,单击界面左上角的图标。

    弹出“导入数据”对话框,如图2所示。
    图2 导入数据

    配置“导入数据”对话框参数,具体参见表1
    表1 导入数据参数说明

    参数名称

    参数说明

    数据集

    输入自定义名称。

    单击“创建”后,会自动创建此数据集。

    数据类别

    导入数据的类别。

    实例名称

    本次导入数据的名称。

    实例别名

    本次导入数据的别名。

    数据来源

    数据上传的途径。

    包含如下方式:

    • 本地上传:从用户本地上传数据。
    • 样例数据:模型训练服务环境中预置的用户体验数据。包括鸢尾花原始测试集、鸢尾花训练集、鸢尾花测试集、KPI 15分钟数据集、KPI 60分钟数据集、KPI异常检测数据集。

      其中鸢尾花原始测试集、KPI 15分钟数据集和KPI 60分钟数据集中包括空值,用户可以通过特征工程进行数据修复,剔除空值。

    本地上传-文件大小限制为60M,文本支持csv和txt

    数据来源选择“本地上传”时可见,表示数据文件所在的用户本地路径。

    为避免后续处理数据时出错,请按要求上传csv和txt格式的数据文件。

    样例数据-请选择数据集

    数据来源选择“样例数据”时可见。

    系统默认给出六个数据实例:

    • iris_raw:鸢尾花原始测试集
    • iris_training:鸢尾花训练集
    • iris_test:鸢尾花测试集
    • KPI_15mins:KPI 15分钟数据集
    • KPI_60mins:KPI 60分钟数据集
    • TPC-iSPS11_60:KPI异常检测数据集
    • amazon:迁移学习Office-31 A(Amazon)数据集
    • dslr:迁移学习Office-31 D(DSLR)数据集
    • webcam:迁移学习Office-31 W(Webcam)数据集
    • caltech:迁移学习Caltech-256数据集

    其中,iris_raw、KPI_15mins、KPI_60mins数据集中包含空值。用户可以通过特征工程进行数据修复,剔除空值。

    分隔符

    用户根据导入数据文件的格式进行选择,用于系统识别数据字段。

    当前支持“,”、“;”和“|”三种分隔符。

    文件编码

    数据文件的编码格式。

    当前支持UTF-8、GBK和GB2312三种格式。

    标题行

    数据是否包含标题行,用户根据导入数据文件的格式进行选择。

    包含如下选项:

    • 有标题行
    • 无标题行

  2. 单击“创建”,导入数据文件。

    如果导入数据所在的“状态”列显示“导入成功”,说明数据导入成功。

  3. (可选)分析数据。

    1. 单击数据实例所在行对应“操作”列的图标,进入数据详情界面。
    2. 单击数据文件所在行对应“操作”列的“元数据”,进入数据分析界面。
    3. 根据实际情况,从下拉框中选择AI引擎和对应的规格(数据量小时没有此选项),单击“数据分析”。

      分析完成后展示该数据实例的详细信息,包括:字段名称、字段类型、数据分布、有效值、空值、异常值、最大值、最小值、均值、方差、分位数等。

相关文档