不同模型推荐的参数与NPU卡数设置
模型 |
Template |
模型参数量 |
训练策略类型 |
序列长度cutoff_len |
梯度累积值 |
优化工具 (Deepspeed) |
规格与节点数 |
---|---|---|---|---|---|---|---|
Qwen-VL |
Qwen-VL |
7B |
full |
2048 |
gradient_accumulation_steps: 16 |
ZeRO-3 |
1*节点 & 8*Ascend |
lora |
gradient_accumulation_steps: 8 |
ZeRO-2 |
1*节点 & 8*Ascend |