引言
训练精度问题是多种因素共同作用的结果,主要表现是训练过程的Loss不收敛、Loss收敛不符合预期或者Loss收敛趋势符合预期,但是模型评测结果表现不佳。
影响模型Loss收敛的原因是多方面的:首先,数据问题可能导致不收敛,例如数据预处理不完善;其次,模型的训练超参数也同样会导致类似的情况;另外,网络随机参数初始化差异以及典型场景(例如Dropout和数据集Shuffle等操作)都可能在训练阶段Loss层面引入误差;再者,模型本身的算法设计过程也可能会引入不收敛情况;最后,则是不符合预期的计算或者通信导致的模型收敛问题。
在迁移流程中,一般已经有模型训练的标杆,因此主要关注昇腾软件栈引入的精度偏差即可。由于昇腾芯片和GPU芯片的架构差异(包括不同架构下的GPU芯片),收到数值计算精度的影响,在软件实现上也存在微小的偏差。一般来说,只要数值差异在特定的容忍范围内,不会影响模型的最终收敛。