开发数据预处理作业
数据预处理通常被用于评估/训练作业场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。
前提条件
- 已提前准备好训练数据,和评估/预测数据。
- 数据预处理作业选择的结构化数据集(包括CSV文件或目录数据集),需要在创建数据集时定义字段的分布类型。
训练数据预处理作业
- 用户登录TICS控制台。
- 进入TICS控制台后,单击页面左侧 ,进入计算节点管理页面。
- 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。
图1 选择计算节点
- 在“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。
页,单击图2 前往计算节点
- 选择界面左侧“数据管理>数据预处理”,单击已创建的数据预处理作业后的开发按钮,进入作业开发页面。该页面描述了字段的属性,如字段名称和分布类型。另外可以通过列表下方的“描述性统计”按键来统计字段的统计量,包括缺失值数量、最大值、最小值及数据分布图。还可以通过为字段添加预处理方法。
图3 作业开发页面
- 进行字段描述性统计。单击列表下方的“描述性统计”按键,会对该数据集的选定字段(即数据创建处筛选的字段)进行原数据的描述性统计,包括缺失值数量、最大值、最小值以及分布图。
图4 描述性统计
- 执行预处理。单击列表字段后的添加预处理方法,系统将利用所选的预处理方法(转换函数)将特征数据转换成更加适合算法模型的特征数据。当前TICS支持的特征预处理方法如表1所示。对于一个字段,可以添加多种预处理方法,并且建议按照如下处理顺序进行编排:
- 连续型字段:缺失值处理>特征缩放、缺失值处理>标准化、异常值处理>标准化、缺失值处理>异常值处理>Log变换等
- 离散型字段:缺失值处理>离散特征编码、缺失值处理>OneHot编码等
表1 预处理方法 预处理方法名称
使用范围
功能介绍
缺失值处理
连续型/离散型
针对连续特征有均值、中位数2种填充策略,针对离散特征有众数的填充策略。
离散特征编码
离散型
将字符串形式存储的特征,映射为[0, n_classes-1]范围内的整数
Onehot编码
离散型
将[0, n_classes-1]范围内整数,映射为大小为n-classes的向量,仅对应索引的元素为1,其余为0
特征放缩
连续型
适合连续特征。将特征的取值范围缩放到[min,max]的范围,推荐min=0,max=1
标准化
连续型
将特征的取值标准化为均值=0,标准差=1的高斯分布
异常值处理
连续型
对特征数据进行异常值定义和处理。对连续特征的数值范围定义合理区间,低于或超过该范围的数值进行修正。支持均值、中位数以及边界值进行修正。
Log变换
连续型
适合连续特征。将特征进行sign(x)log(|x|+1)非线性变换,主要作用是稳定数值方差,使得右偏分布变换后接近正态分布。
添加预处理方法后,勾选添加预处理方法的字段,然后单击列表下方的“批量刷新分布”按键预览预处理结果,查看是否符合预期并进行预处理方法调试。直到预处理结果符合预期结果,则单击列表下方的“保存并执行”按键执行预处理。
图5 添加预处理方法
- 执行预处理结束后,页面跳转到作业列表。单击预处理作业列表中的开发按钮,再次进入作业开发页面,页面展示数据转换后的各项统计结果。例如缺失值数量处理为0,特征放缩的字段最大值与最小值发生变化,离散特征编码的字段字符串已编码为数值,OneHot编码的字段已转为多列特征。
图6 查看预处理执行结果
- 保存预处理作业。经过一系列数据探索和分析,当数据集达到目标需求后,单击页面下方的“保存并执行”按键即可将所选取的预处理方法及其参数进行保存。然后页面跳转到作业列表,此处可以查看预处理作业的任务状态和作业状态。
图7 查看预处理作业
- 发布预处理后的训练数据集。在预处理作业列表,单击“发布”可以将作业生成的训练数据集发布到空间。发布时可查看生成数据集的各项属性,包括数据名称(预处理生成的数据集前缀为preprocessed,后缀为train)、数据文件位置、数据结构等。确认无误后,单击确定即可发布数据集。
发布后可在“数据管理>数据创建”页面查看生成的数据集。
图8 查看生成的数据集
- (可选)单击作业列表中对应作业的“更多>下载参数配置”,下载本地文件。文件包含字段在作业开发页面使用预处理方法及参数,便于后期线下处理数据。
评估/预测数据预处理
- 参考创建数据预处理作业,在“数据管理>数据预处理”界面创建用于处理评估/预测数据的数据预处理作业。注意,作业中所选的数据集应为评估/预测数据集,且字段定义、尤其是分布类型的定义与之前的训练数据集相同。
- 单击创建的数据预处理作业后的开发按钮,进入作业开发页面。然后单击左上角的“关联历史作业”,在弹窗中选择训练数据的预处理作业后,单击“保存”。
图9 关联历史作业
- 系统提示关联成功,则说明这两个数据集的字段及属性一致、完成校验,并已将训练数据预处理作业的预处理方法成功关联应用。
注意,此时的预处理方法已冻结,与训练数据预处理作业保持一致,不可再修改。
- 依次单击“描述性统计”、“批量刷新分布”,评估预处理方法效果是否符合预期。评估通过后,单击“保存并执行”,完成对评估/预测数据的处理和生成。
图10 生成处理后的评估/预测数据
- 发布预处理后的评估/预测数据集。在预处理作业列表,单击“发布”可以将作业生成的评估/预测数据集发布到空间。生成后的评估/预测数据集即可用于纵向联邦作业及其他作业(不建议用于横向联邦作业,因为单方的横向数据分布并不保证其具备总体样本的分布特点)。