更新时间:2025-08-14 GMT+08:00
分享

数据预处理优化

模型训练前,需要对数据进行加工,防止某些特征存在极端异常值或大面积错误数据,导致模型训练不稳定。可能会引发如下问题:

  • 模型对异常值过度敏感,导致拟合异常值而非整体数据分布。
  • 训练过程中损失波动较大,甚至出现梯度爆炸。
  • 模型在测试集上表现不佳,泛化能力差。

优化调整策略如下:

  • 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。
  • 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。
  • 结合数据自身特征,进行异常数据的筛选。
  • 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。

优化举例:

某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1图2,导致在训练过程中盐度损失异常,波动大且不收敛,如图3。在删除异常数据后,如图4,盐度正常收敛。因此在训练过程中存在损失波动较大的情况,可以考虑数据异常的情况。

图1 盐度数据偏移与缺失样例-1
图2 盐度数据偏移与缺失样例-2
图3 盐度(S)异常的训练损失
图4 删除异常值后的训练损失

相关文档