文档首页/ 盘古大模型 PanguLargeModels/ 最佳实践/ 模型调优实践/ 盘古科学计算大模型调优实践/ 数据预处理优化

更新时间：2026-03-24 GMT+08:00

数据预处理优化

模型训练前，需要对数据进行加工，防止某些特征存在极端异常值或大面积错误数据，导致模型训练不稳定。可能会引发如下问题：

模型对异常值过度敏感，导致拟合异常值而非整体数据分布。
训练过程中损失波动较大，甚至出现梯度爆炸。
模型在测试集上表现不佳，泛化能力差。

优化调整策略如下：

通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。
通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。
结合数据自身特征，进行异常数据的筛选。
对于异常值，视情况进行删除、替换、保留等操作，兼顾模型的收敛与鲁棒性。

优化举例：

某数据集中，盐度（S）变量在下载过程中存在数据块缺失与数据块偏移的问题，如图1、图2，导致在训练过程中盐度损失异常，波动大且不收敛，如图3。在删除异常数据后，如图4，盐度正常收敛。因此在训练过程中存在损失波动较大的情况，可以考虑数据异常的情况。

图1 盐度数据偏移与缺失样例-1

图2 盐度数据偏移与缺失样例-2

图3 盐度（S）异常的训练损失

图4 删除异常值后的训练损失

父主题： 盘古科学计算大模型调优实践

上一篇：模型调优方法介绍

下一篇：训练参数优化

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问