更新时间:2025-01-18 GMT+08:00
分享

不同模型推荐的参数与NPU卡数设置

表1 不同模型推荐的参数与NPU卡数设置

模型

Template

模型参数量

训练策略类型

序列长度cutoff_len

梯度累积值

优化工具

(Deepspeed)

规格与节点数

Qwen-VL

Qwen-VL

7B

full

2048

gradient_accumulation_steps: 16

ZeRO-3

1*节点 & 8*Ascend

lora

gradient_accumulation_steps: 8

ZeRO-2

1*节点 & 8*Ascend

相关文档