更新时间:2024-11-12 GMT+08:00
分享

开发数据预处理作业

数据预处理通常被用于评估/训练作业场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。

前提条件

  • 已提前准备好训练数据,和评估/预测数据。
  • 数据预处理作业选择的结构化数据集(包括CSV文件或目录数据集),需要在创建数据集时定义字段的分布类型。

训练数据预处理作业

  1. 用户登录TICS控制台。
  2. 进入TICS控制台后,单击页面左侧计算节点管理,进入计算节点管理页面。
  3. “计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。

    图1 选择计算节点

  4. 计算节点详情页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”“密码”

    图2 前往计算节点

  5. 选择界面左侧“数据管理>数据预处理”,单击已创建的数据预处理作业后的开发按钮,进入作业开发页面。该页面描述了字段的属性,如字段名称和分布类型。另外可以通过列表下方的“描述性统计”按键来统计字段的统计量,包括缺失值数量、最大值、最小值及数据分布图。还可以通过为字段添加预处理方法。

    图3 作业开发页面

  6. 进行字段描述性统计。单击列表下方的“描述性统计”按键,会对该数据集的选定字段(即数据创建处筛选的字段)进行原数据的描述性统计,包括缺失值数量、最大值、最小值以及分布图。

    图4 描述性统计

  7. 执行预处理。单击列表字段后的添加预处理方法,系统将利用所选的预处理方法(转换函数)将特征数据转换成更加适合算法模型的特征数据。当前TICS支持的特征预处理方法如表1所示。对于一个字段,可以添加多种预处理方法,并且建议按照如下处理顺序进行编排:

    • 连续型字段:缺失值处理>特征缩放、缺失值处理>标准化、异常值处理>标准化、缺失值处理>异常值处理>Log变换等
    • 离散型字段:缺失值处理>离散特征编码、缺失值处理>OneHot编码等
    表1 预处理方法

    预处理方法名称

    使用范围

    功能介绍

    缺失值处理

    连续型/离散型

    针对连续特征有均值、中位数2种填充策略,针对离散特征有众数的填充策略。

    离散特征编码

    离散型

    将字符串形式存储的特征,映射为[0, n_classes-1]范围内的整数

    Onehot编码

    离散型

    将[0, n_classes-1]范围内整数,映射为大小为n-classes的向量,仅对应索引的元素为1,其余为0

    特征放缩

    连续型

    适合连续特征。将特征的取值范围缩放到[min,max]的范围,推荐min=0,max=1

    标准化

    连续型

    将特征的取值标准化为均值=0,标准差=1的高斯分布

    异常值处理

    连续型

    对特征数据进行异常值定义和处理。对连续特征的数值范围定义合理区间,低于或超过该范围的数值进行修正。支持均值、中位数以及边界值进行修正。

    Log变换

    连续型

    适合连续特征。将特征进行sign(x)log(|x|+1)非线性变换,主要作用是稳定数值方差,使得右偏分布变换后接近正态分布。

    添加预处理方法后,勾选添加预处理方法的字段,然后单击列表下方的“批量刷新分布”按键预览预处理结果,查看是否符合预期并进行预处理方法调试。直到预处理结果符合预期结果,则单击列表下方的“保存并执行”按键执行预处理。

    图5 添加预处理方法

  8. 执行预处理结束后,页面跳转到作业列表。单击预处理作业列表中的开发按钮,再次进入作业开发页面,页面展示数据转换后的各项统计结果。例如缺失值数量处理为0,特征放缩的字段最大值与最小值发生变化,离散特征编码的字段字符串已编码为数值,OneHot编码的字段已转为多列特征。

    图6 查看预处理执行结果

  9. 保存预处理作业。经过一系列数据探索和分析,当数据集达到目标需求后,单击页面下方的“保存并执行”按键即可将所选取的预处理方法及其参数进行保存。然后页面跳转到作业列表,此处可以查看预处理作业的任务状态和作业状态。

    图7 查看预处理作业

  10. 发布预处理后的训练数据集。在预处理作业列表,单击“发布”可以将作业生成的训练数据集发布到空间。发布时可查看生成数据集的各项属性,包括数据名称(预处理生成的数据集前缀为preprocessed,后缀为train)、数据文件位置、数据结构等。确认无误后,单击确定即可发布数据集。

    发布后可在“数据管理>数据创建”页面查看生成的数据集。

    图8 查看生成的数据集

  11. (可选)单击作业列表中对应作业的“更多>下载参数配置”,下载本地文件。文件包含字段在作业开发页面使用预处理方法及参数,便于后期线下处理数据。

评估/预测数据预处理

  1. 参考创建数据预处理作业,在“数据管理>数据预处理”界面创建用于处理评估/预测数据的数据预处理作业。注意,作业中所选的数据集应为评估/预测数据集,且字段定义、尤其是分布类型的定义与之前的训练数据集相同。
  2. 单击创建的数据预处理作业后的开发按钮,进入作业开发页面。然后单击左上角的“关联历史作业”,在弹窗中选择训练数据的预处理作业后,单击“保存”。

    图9 关联历史作业

  3. 系统提示关联成功,则说明这两个数据集的字段及属性一致、完成校验,并已将训练数据预处理作业的预处理方法成功关联应用。

    注意,此时的预处理方法已冻结,与训练数据预处理作业保持一致,不可再修改。

  4. 依次单击“描述性统计”、“批量刷新分布”,评估预处理方法效果是否符合预期。评估通过后,单击“保存并执行”,完成对评估/预测数据的处理和生成。

    图10 生成处理后的评估/预测数据

  5. 发布预处理后的评估/预测数据集。在预处理作业列表,单击“发布”可以将作业生成的评估/预测数据集发布到空间。生成后的评估/预测数据集即可用于纵向联邦作业及其他作业(不建议用于横向联邦作业,因为单方的横向数据分布并不保证其具备总体样本的分布特点)。

相关文档