文档首页 > > 算法节点参考> 算法节点说明> 输入> 从数据集读取数据

从数据集读取数据

分享
更新时间: 2019/07/05 11:04

概述

“从数据集读取数据”节点用于从数据集中导入数据文件,支持三种数据格式,分别为JSON,Parquet 和CSV。

数据集是标准版为用户提供的存储少量数据的文件系统。

  • 对于未导入元数据文件的CSV文件,本节点会对CSV文件进行元数据探查,包括字段、类型、测量尺度、值、角色和描述等6部分。所探查的元数据示例如表1所示。
    表1 元数据示例

    字段

    类型

    测量尺度

    角色

    描述

    attr_1

    Integer

    Continuous

    [19,86]

    Input

    true

    attr_2

    String

    Nominal

    admin,blue-co...

    Input

    true

    attr_3

    String

    Nominal

    divorced,mari...

    Input

    true

    attr_4

    String

    Nominal

    primary,second...

    Input

    true

    attr_5

    String

    Flag

    no,yes

    Input

    true

说明:

在节点上查看数据所对应的元数据的方法:右键点击“从数据集读取数据”节点,选择 ““输出数据集”数据预览”,在弹出的对话框中,单击右边页面上的“元数据”,则可以看到元数据信息。

在元数据信息中“值”的内容如果较多,将使用“...”表示,将鼠标移至内容上方,会显示所有内容。

  • 当为CSV格式的文件导入了元数据以后,如果元数据中字段的“类型”为“String”,且“测量尺度”为“Typeless”或“Continuous”,则本节点会重新进行测量尺度的探查,防止元数据和实际数据不匹配。

输入与输出

  • 输入:数据文件、元数据文件。
  • 输出:数据集。

参数说明

表2 “从数据集读取数据”节点参数说明

参数

参数说明

数据格式

支持3种格式:“Parquet”、“JSON”和“CSV”。

默认值:CSV

说明:

当选择CSV格式时,将显示更多参数,详情请参看表3

CSV格式的文件只支持UTF-8编码格式。

数据文件

数据文件在数据集中的绝对路径。

表3 CSV文件格式关联参数说明

关联参数

参数说明

数据文件

数据文件在公共数据集中的绝对路径

导入元数据

是否导入元数据文件。

是否包括表头

数据中是否有表头,“导入元数据”不勾选时可见。

字段分隔符

列分隔符,包括“,”,“SPACE”,“TAB”,“OTHERS”。“导入元数据”不勾选时可见。

默认值:“,”。

说明:

选择“OTHERS”时,在“其他分隔符”中输入用户自定义分隔符。

元数据文件

待导入的元数据文件路径,“导入元数据”被选中时可见。

元数据文件的样例参见元数据文件详细描述

保存元数据文件

是否保存元数据文件。

  • 勾选:保存元数据文件到“数据文件”设置的目录下。
  • 不勾选:不保存。

处理异常值

该参数有三种处理方式:

  • null值替代:替换为空值。
  • 停止:停止运行。
  • 忽略:当解析错误时,丢弃异常值;当显示为空值时,正常运行。

保存异常记录

当“处理异常值”的值为“null值代替”或“忽略”时可选。

输出文件名

异常值保存文件名称,“保存异常记录”被选中时可见。异常记录默认保存到数据文件所在目录以异常文件名命名的文件夹下。

允许覆盖

是否覆写,“保存异常记录”被选中时可见。

元数据文件详细描述

元数据文件样例内容如下所示:

{ 
            "version": "2.0", 
            "lineDelim": "\n", 
            "delim": ",", 
            "includeHeadRow": false, 
            "attributes": [{ 
                        "intervals": [{ 
                                    "includeMinimum": true, 
                                    "maximum": "74", 
                                    "minimum": "15", 
                                    "includeMaximum": true 
                        }], 
                        "role": "INPUT", 
                        "nullable": true, 
                        "dataType": "INTEGER", 
                        "name": "age", 
                        "measurement": "CONTINUOUS" 
            }, 
            { 
                        "role": "TARGET", 
                        "nullable": true, 
                        "dataType": "STRING", 
                        "values": ["F", 
                        "M"], 
                        "name": "sex", 
                        "measurement": "FLAG" 
            }, 
            { 
                        "role": "INPUT", 
                        "nullable": true, 
                        "dataType": "STRING", 
                        "values": ["HIGH", 
                        "LOW", 
                        "NORMAL"], 
                        "name": "bp", 
                        "measurement": "NOMINAL" 
            }] 
}
表4 元数据文件具体说明

参数名称

参数说明

version

定义desc文件版本,当前版本为2.0。

lineDelim

定义行分隔符。

delim

定义数据列分隔符,可以是“,”、“space”、“tab”或是用户设定的一个分隔符,比如"/",":"等。

includeHeadRow

数据中是否有表头,false为无,true为有。

attributes

“role”、“nullable”、“dataType”、“values”、“name”、“measurement”,每个参数的介绍如后续描述。

role

设置字段在训练集中的角色,role类型有Input、Target、None和Frequency等。

设置方法:

  • 作为目标列的字段则设为Target。
  • 作为训练数据的字段设为Input。
  • 不被使用的字段设为None(建模和评分都会略过)。
  • 其它取值暂未被使用。

nullable

设置字段值是否可以为空,true代表可以为空,false代表不能为空。

dataType

定义字段的数据类型,可以是String/Integer/Real/Date /Timestamp

设置方法:

  • 字符串设为String。
  • 整数设为Integer。
  • 实数设为Real。
  • 日期设为Date。
  • 时间戳设为Timestamp。

name

字段名

measurement

描述字段取值的测量尺度,包括Typeless / Continuous / Nominal/ Ordinal / Flag。

设置方法:

  • 数据是连续型的设为Continuous。
  • 数据是分类型的设为Nominal,如果分类型的数据有序则设为Ordinal。
  • 数据是二值型,如true和false,设为Flag。

取值内容查看:

  • 设为Continuous时在intervals参数内设置具体的取值范围,详见intervals参数说明;
  • 设为Nominal、Ordinal、Flag时,则统一在values参数内设置当前字段的所有取值,详见values参数说明。

intervals

字段为Continuous类型时的可选参数,可以自定义,也可以省略。自定义字段的取值范围,格式如下所示:

[{"minimum":null, "maximum":null, "includeMinimum":null, "includeMaximum":null}]},

其中minimum定义最小值;maximum定义最大值;includeMaximum为true代表包含最大值,为false代表不包含最大值;includeMinimum为true代表包含最小值,为false代表不包含最小值。

values

字段为Nominal、Ordinal、Flag类型时必须设置的参数,定义字段的取值内容,罗列去重后所有的取值,不包含重复值。

样例

假设输入的是一个CSV文件,未输入描述文件。

“从数据集读取数据”节点的输入数据集如表5所示。

表5 “从数据集读取数据”节点的输入数据集

attr_1

attr_2

attr_3

attr_4

attr_5

attr_6

23

F

2001/1/1

0.526102

low

2017/5/12 15:16

47

M

2001/2/1

0.526102

normal

2017/5/12 15:17

47

M

2001/3/1

0.526102

normal

2017/5/12 15:18

28

F

2001/4/1

0.526102

low

2017/5/12 15:19

61

F

2001/4/1

0.526102

high

2017/5/12 15:20

包含“从数据集读取数据”节点的工作流如图1所示。

图1 包含“从数据集读取数据”节点的工作流

“从数据集读取数据”节点参数的设置如图2所示。

图2 “从数据集读取数据”节点参数设置

右键单击“修改元数据”节点,选择““输出数据集”数据预览”,在“数据预览”页面,在左侧的运行结果如表6所示。

表6 “修改元数据”节点的运行结果

attr_1

attr_2

attr_3

attr_4

attr_5

attr_6

23

F

2001/1/1

0.526102

low

2017/5/12 15:16

47

M

2001/2/1

0.526102

normal

2017/5/12 15:17

47

M

2001/3/1

0.526102

normal

2017/5/12 15:18

28

F

2001/4/1

0.526102

low

2017/5/12 15:19

61

F

2001/4/1

0.526102

high

2017/5/12 15:20

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区