附录：指令微调训练常见问题

问题1：在训练过程中遇到NPU out of memory

解决方法：

将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。
替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框架的选择，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。
- - ZeRO-0 数据分布到不同的NPU
- - ZeRO-1 Optimizer States分布到不同的NPU
- - ZeRO-2 Optimizer States、Gradient分布到不同的NPU
- - ZeRO-3 Optimizer States、Gradient、Model Parameter分布到不同的NPU
增加卡数重新训练，未解决找相关人员定位。

问题2：访问容器目录时提示Permission denied

由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。

chmod 777 -R ${dir}

问题3：训练过程报错：ImportError: This modeling file requires the following packages that were not found in your environment: flash_attn

根因：昇腾环境暂时不支持flash_attn接口

规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉

vim /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/transformers/dynamic_module_utils.py

问题4：训练过程中报"ModuleNotFoundError: No module named 'multipart'"报错：

截图如下：

解决措施：可更新python-multipart为0.0.12版本，具体步骤如下：

启动训练任务前更新python-multipart版本：

pip install python-multipart==0.0.12

父主题： 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）

上一篇：各个模型训练前文件替换

下一篇：主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

附录：指令微调训练常见问题

问题1：在训练过程中遇到NPU out of memory

问题2：访问容器目录时提示Permission denied

问题3：训练过程报错：ImportError: This modeling file requires the following packages that were not found in your environment: flash_attn

问题4：训练过程中报"ModuleNotFoundError: No module named 'multipart'"报错：

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线