更新时间:2021-09-18 GMT+08:00
分享

新建数据集和导入数据

用户根据数据的业务类别创建数据集,并导入数据。

基本功能介绍

系统支持本地上传数据、从公共空间中导入样例数据至模型训练服务。

操作步骤如下所示。

  1. 单击“项目总览”页面“数据集”下方的“创建”。

    进入“数据集”页面,弹出“导入数据”对话框,如图1所示。
    图1 导入数据

    参数配置说明,如表1所示。
    表1 参数说明

    参数名称

    参数说明

    数据集

    支持用户编辑生成新的数据集,示例:Harddisk。

    数据类别

    导入数据的类别。

    包含如下选项:

    实例名称

    数据集实例的名称。

    只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)、(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。

    实例别名

    数据集实例的别名。

    由字母、汉字、数字(0~9)、下划线(_)、中划线(-),圆括号组成,且长度为[1-128]个字符。创建别名后,系统将优先以数据集别名显示数据集。

    数据来源

    数据上传的途径。

    包含如下方式:
    • 本地上传:本地上传数据。
    • 样例数据:模型训练服务环境中预置的用户体验数据。包括鸢尾花原始测试集、鸢尾花训练集、鸢尾花测试集、KPI 15分钟数据集、KPI 60分钟数据集、KPI异常检测数据集、4份迁移学习数据集。

      其中鸢尾花原始测试集、KPI 15分钟数据集和KPI 60分钟数据集中包括空值,用户可以通过特征工程进行数据修复,剔除空值。

    本地上传-文件大小限制为60M,文本支持csv和txt

    数据来源选择“本地上传”时可见,表示数据文件所在的用户本地路径。

    为避免后续处理数据时出错,请按要求上传csv和txt格式的数据文件。

    样例数据-请选择数据集

    数据来源选择“样例数据”时可见。

    系统默认给出六个数据集实例:

    • iris_raw:鸢尾花原始测试集
    • iris_training:鸢尾花训练集
    • iris_test:鸢尾花测试集
    • KPI_15mins:KPI 15分钟数据集
    • KPI_60mins:KPI 60分钟数据集
    • TPC-iSPS11_60:KPI异常检测数据集
    • amazon:迁移学习Office-31 A(Amazon)数据集
    • dslr:迁移学习Office-31 D(DSLR)数据集
    • webcam:迁移学习Office-31 W(Webcam)数据集
    • caltech:迁移学习Caltech-256数据集

    其中,iris_raw、KPI_15mins、KPI_60mins数据集中包含空值。用户可以通过特征工程进行数据修复,剔除空值。

    文件编码

    数据文件的编码格式。

    当前支持UTF-8、GBK和GB2312三种格式。

    分隔符

    用户根据导入数据文件的格式进行选择,用于系统识别数据字段。

    当前支持“,”、“;”和“|”三种分隔符。

    标题行

    数据是否包含标题行,用户根据导入数据文件的格式进行选择。

    包含如下选项:

    • 有标题行
    • 无标题行

  2. 单击“创建”,导入数据文件。

    如果导入数据所在的“状态”列显示“导入成功”,说明数据导入成功。

  3. 单击数据集实例所在行对应“操作”列的图标,进入数据详情界面,如图2所示。

    图2 数据详情

  4. 单击数据集文件所在行对应“操作”列的“查看”,可以查看数据内容,如所图3示。

    单击数据集文件所在行对应“操作”列的“删除”,可以删除当前数据集。
    图3 数据内容

  5. 单击数据文件所在行对应“操作”列的“元数据”,进入数据分析界面,如图4所示。

    说明:当前操作仅对一个数据集做数据分析操作,如果需要对当前数据集实例界面的数据集列表都做数据分析操作,请单击如图2所示的数据集实例“状态”中的“元数据”按钮。
    图4 数据分析

  6. 请根据实际情况,从下拉框中选择AI引擎和对应的规格(数据量小时无此选项),单击“数据分析”。

    可查看数据集实例的详细信息,包括字段名称、字段类型、数据分布、有效值、空值、异常值、最大值、最小值、均值、方差、分位数等,如图5所示。

    当前界面,支持如下操作:

    • 在数据分析结果界面的“操作”列,单击图标,可修改数据字段类型,目前数据类型可支持修改“TEXT”、“REAL”和“INTEGER”三种类型。
    • 单击图标,可设置当前字段为标签列。
      图5 数据分析结果

支持超大文件(10G)上传

支持多文件多目录上传,最多可上传10G大小。支持断点续传功能。

  1. 在数据集界面,单击界面左上角的图标。

    弹出“导入数据”对话框,如图6所示。

    参数说明如下所示:

    • 数据集:从下拉框中选择已有数据集或编辑生成新数据集。示例“Case”。
    • 数据类别:从下拉框中选择“多文件与目录(文件大小限制为10G)”。
    • 实例名称:请根据实际情况配置。示例设置为“data”。
    • 实例别名:请根据实际情况配置。支持设置为中文字。
      图6 导入数据

  2. 单击“创建”,生成名称为“data”的数据。
  3. 在左侧数据集目录中,单击“data”,如图7所示。

    右侧展示“data”的数据详情界面。
    图7 样例数据

  4. 单击界面左上角的“上传”,进入文件拖拽上传面板界面,如图8所示。

    图8 文件上传面板

  5. 从本地同时拖拽数据文件和目录到灰色边框展示区域,如图9所示。

    目前支持的功能和限制如下所示:

    • 当前右侧面板最多支持1000个文件,总大小最大为10G的上传任务。
    • 文件上传过程中,请勿关闭或刷新页面,否则会导致数据上传中断。
    • 大文件上传任务中断后,仍可从断点处继续上传。

      操作方式为:单击上传终端的文件右侧的图标,从本地重新选择当前文件后,单击界面右上角的“上传”,完成断点续传。

    • 支持删除或更新覆盖已上传的文件。
    图9 拖拽多文件和目录

  6. 单击界面右上角的“上传”,等待数据上传完成,如图10所示。

    批量上传本地文件时,支持按页分批上传文件。
    图10 上传数据

  7. 等待数据上传完成后,单击左侧数据集目录中的“data”。

    图11所示,多文件数据集支持按目录结构进行树状展示。右侧文件列表支持分页展示,且支持对当前目录下面的文件进行前缀搜索(不支持模糊匹配)。

    在右侧文件列表界面,单击具体数据文件右侧的“查看”,支持查看不同类型文件内容,包括:

    • csv格式数据文件表格方式展示
    • json文件格式化展示
    • json文件、python等代码文件、markdown文件的CodeMirror渲染展示
    • 绝大多数格式的图片文件
    • mp3/ogg/wav格式的音频播放
    • mp4/mkv/webm格式的视频播放
      图11 data数据

相关文档