数据预处理优化
模型训练前,需要对数据进行加工,防止某些特征存在极端异常值或大面积错误数据,导致模型训练不稳定。可能会引发如下问题:
- 模型对异常值过度敏感,导致拟合异常值而非整体数据分布。
- 训练过程中损失波动较大,甚至出现梯度爆炸。
- 模型在测试集上表现不佳,泛化能力差。
优化调整策略如下:
- 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。
- 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。
- 结合数据自身特征,进行异常数据的筛选。
- 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。
优化举例:
某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,导致在训练过程中盐度损失异常,波动大且不收敛,如图3。在删除异常数据后,如图4,盐度正常收敛。因此在训练过程中存在损失波动较大的情况,可以考虑数据异常的情况。