更新时间:2022-12-09 GMT+08:00
在Notebook中,如何使用昇腾多卡进行调试?
昇腾多卡训练任务是多进程多卡模式,跑几卡需要起几个python进程。昇腾底层会读取环境变量:RANK_TABLE_FILE,开发环境已经设置,用户无需关注。比如跑八卡,可以如下片段代码:
export RANK_SIZE=8 current_exec_path=$(pwd) echo 'start training' for((i=0;i<=$RANK_SIZE-1;i++)); do echo 'start rank '$i mkdir ${current_exec_path}/device$i cd ${current_exec_path}/device$i echo $i export RANK_ID=$i dev=`expr $i + 0` echo $dev export DEVICE_ID=$dev python train.py > train.log 2>&1 & done
其中,train.py中设置环境变量DEVICE_ID:
devid = int(os.getenv('DEVICE_ID')) context.set_context(mode=context.GRAPH_MODE, device_target="Ascend", device_id=devid)
父主题: 更多功能咨询
更多功能咨询 所有常见问题
- 在Notebook中,如何使用昇腾多卡进行调试?
- 使用Notebook不同的资源规格,为什么训练速度差不多?
- 使用MoXing时,如何进行增量训练?
- 在Notebook中如何查看GPU使用情况
- 如何在代码中打印GPU使用信息
- Ascend上如何查看实时性能指标?
- 不启用自动停止,系统会自动停掉Notebook实例吗?会删除Notebook实例吗?
- JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系
- ModelArts中创建的数据集,如何在Notebook中使用
- pip介绍及常用命令
- 开发环境中不同Notebook规格资源“/cache”目录的大小
- 开发环境如何实现IAM用户隔离?
- 资源超分对Notebook实例有什么影响?
more