文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 数据特征> 特征工程> 特征异常平滑

更新时间：2023-05-16 GMT+08:00

查看PDF

特征异常平滑

概述

特征异常平滑算子用于将数据中的异常数据平滑到一定的区间，可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。

z-score方式：计算所需要平滑的特征的均值mean和标准差std，并引入置信因子cl
$\text{[math]}$

$\text{[math]}$

平滑区间上界： $\text{[math]}$

平滑区间下界： $\text{[math]}$

min-max-per方式：通过上下百分位计算，假设需要平滑的特征列最大值为max，上百分位为max_per，下百分位为min_per
平滑区间上界： $\text{[math]}$

平滑区间下界： $\text{[math]}$

min-max-thresh方式：直接指定平滑区间的上界和下界
boxplot方式：通过箱线图的方式计算平滑区间


中位数（Q2 / 50th百分位数）：数据集的中间值；

下四分位数（Q1 / 25百分位数）：最小数（不是“最小值”）和数据集的中位数之间的中间数；

上四分位数（Q3 / 75th Percentile）：数据集的中位数和最大值之间的中间值（不是“最大值”）；

四分位间距（IQR）：第25至第75个百分点的距离

上边缘：Q3 + 1.5 * IQR

下边缘：Q1 -1.5 * IQR

平滑区间上界：上边缘

平滑区间下界：下边缘

输入

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象。

输出

参数	子参数	参数说明
output	output_port_1	output为字典类型，output_port_1为pyspark中的PipelineModel类型对象，特征异常平滑模型。
output	output_port_2	output_port_2为pyspark中的DataFrame类型，为特征异常平滑结果。

参数说明

参数	是否必选	参数说明	默认值
soften_cols	是	需要进行特征异常平滑处理的列，逗号分隔。	无
soften_method	是	特征平滑方法，可选z-score,min-max-per,min-max-thresh,boxplot。	"z-score"
keep_original	是	是否保留原始列，若保留则新增列，列名为原始列前加'soften_'。	False
cl	否	置信水平，当选择z-score方法时需要配置此参数。	1
min_per	否	最低百分位。当平滑方法为min-max-per时需要配置该参数。	0.0
max_per	否	最高百分位。当平滑方法为min-max-per时需要配置该参数。	0.1
min_thresh	否	阈值最小值。当平滑方法为min-max-thresh时需要配置该参数。	-9999
max_thresh	否	阈值最大值。当平滑方法为阈值平滑时需要配置该参数。	9999
is_sparse	是	是否为k:v的稀疏特征, 若指定该列，soften_cols参数只支持选择稀疏特征列kv_col中的列名。	False
kv_col	否	若为稀疏特征，指定稀疏特征列名。	"kv"
item_spliter	否	稀疏特征的分隔符。	","
kv_spliter	否	稀疏特征key和value的分隔符。	":"

样例

数据样本

样例1 非稀疏数据

样例2 稀疏数据

配置流程

运行流程

点击放大

参数设置

图1 样例1数据参数设置

图2 样例2数据参数设置

结果查看

图3 样例1数据运行结果
点击放大

点击放大

图4 样例2数据运行结果

父主题： 特征工程

上一篇：特征异常检测

下一篇：gbdt编码模型训练

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问