日志采集与存储
查看用户训练日志(Proc Log)
Proc Log是由用户训练代码产生的打屏日志,当用户通过常用框架的方式启动单机多卡或多机多卡的Ascend规格训练作业时,每一张Ascend加速卡对应的训练进程都会产生一份python打印在屏幕上的日志。同一台节点上多个训练进程的日志会被汇集到查看日志及权重章节描述的训练日志文件中,在定位问题时往往需要查看每一个训练进程对应的日志文件。
登录容器获取Proc Log日志命令如下:
docker exec -it ${容器ID} bash cd {container_work_dir}/{af_output_dir}/logs
- {container_work_dir}为启动容器镜像时容器内的工作目录
- {af_output_dir}为训练任务yaml中配置的保存权重和日志的目录
CANN应用类日志
CANN Log是由CANN打印的应用类日志,包括HOST侧应用类日志plog-{pid}-{time}.log和DEVICE侧应用类日志device-{pid}-{time}.log两类,主要包括:
- compiler中各组件(如GE、FE、AI CPU、TBE、HCCL等)、runtime中各组件(如AscendCL、GE、Runtime等)打印的日志。
- Device侧AI CPU 、HCCP打印的日志。
登录容器获取CANN日志命令如下:
docker exec -it ${容器ID} bash cd {container_work_dir}/{af_output_dir}/plog
- {container_work_dir}为启动容器镜像时容器内的工作目录。
- {af_output_dir}为训练任务yaml中配置的保存权重和日志的目录。
- plogs下包含运行日志在run/plog目录下,及DEBUG日志在debug/plog用于问题分析和定位。