文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练推理/ 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）/ 附录：训练常见问题

更新时间：2024-10-29 GMT+08:00

查看PDF

附录：训练常见问题

问题1：在训练过程中遇到NPU out of memory

解决方法：

容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。
```
export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True
```
将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。
替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。
1. - ZeRO-0 数据分布到不同的NPU
2. - ZeRO-1 Optimizer States分布到不同的NPU
3. - ZeRO-2 Optimizer States、Gradient分布到不同的NPU
4. - ZeRO-3 Optimizer States、Gradient、Model Parameter分布到不同的NPU
增加卡数重新训练，未解决找相关人员定位。

问题2：访问容器目录时提示Permission denied

解决方法：

由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。

chmod 777 -R ${dir}

问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn

根因：昇腾环境暂时不支持flash_attn接口

规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉

vim /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/transformers/dynamic_module_utils.py

问题4：Error waiting on exit barrier错误

错误截图：

报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。

解决措施：

修改容器内torch/distributed/elastic/agent/server/api.py文件参数：

vim /home/ma-user/anaconda3/envs/PyTorch-2.2.0/lib/python3.10/site-packages/torch/distributed/elastic/agent/server/api.py

修改def _exit_barrier(self)方法中的barrier_timeout参数，修改后如图1所示。

#修改前
barrier_timeout=self._exit_barrier_timeout
#修改后
barrier_timeout=3000

图1 修改后的barrier_timeout参数

问题5：训练完成使用vllm0.6.0框架推理失败：

错误截图：

报错原因：

训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常

解决措施，以下两种方法任选其一：

①更新transformes和tokenizers版本

GLM4-9B模型，容器内执行以下步骤：
```
pip install transformers==4.43.2
```

其它模型，容器内执行以下步骤：

pip install transformers==4.45.0
pip install tokenizers==0.20.0

②使用原始hf权重的tokenizer.json覆盖保存的tokenizer.json即可，如llama3-8b_lora具体过程如下：

# 进入模型tokenizer目录
cd /home/ma-user/ws/tokenizers/llama3-8b/
# 替换tokenizer.json文件
cp -f tokenizer.json /home/ma-user/ws/saves/rm/llama3-8b/lora/tokenizer.json

问题6：训练过程中报"ModuleNotFoundError: No module named 'multipart'"报错：

截图如下：

解决措施：可更新python-multipart为0.0.12版本，具体步骤如下：

启动训练任务前更新python-multipart版本：

pip install python-multipart==0.0.12

父主题： 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）

上一篇：录制Profiling

下一篇：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

附录：训练常见问题

问题1：在训练过程中遇到NPU out of memory

问题2：访问容器目录时提示Permission denied

问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn

问题4：Error waiting on exit barrier错误

问题5：训练完成使用vllm0.6.0框架推理失败：

问题6：训练过程中报"ModuleNotFoundError: No module named 'multipart'"报错：

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线