训练日志介绍
本章介绍在轻量算力集群模式下训练日志配置及对接建议,包含四部分内容:CANN应用类日志、训练日志、NPU Device 日志、OS日志,其中客户自定义的训练日志(写入SFS Turbo日志)在此章节不涉及。
在训练过程中,有多种类型的日志可用于监控和分析:
- 标准输出(训练日志):这是用户最常关注的日志,其中包含了任务的实时运行状态、Loss值等关键信息。
- CANN应用类日志、Device侧日志、主机侧日志:这些日志提供了更深层次的系统和硬件信息,是定位和分析异常问题的关键。
如下表格详细介绍了这几种日志的详情、源头以及推荐的转储路径。
日志分类 | 日志文件 | 日志产生源 | 设置方式 | 日志落盘源 | 最终落盘路径 |
|---|---|---|---|---|---|
CANN应用类日志 | plog | CANN进程 | ASCEND_PROCESS_LOG_PATH | 容器内 | obs://$(JOB_NAME)/$(NODE_NAME)/ascend_plog/ |
CANN软件栈日志 | CANN进程 | ASCEND_WORK_PATH | 容器内 | obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/ | |
CANN软件栈trace日志目录 | CANN进程 | ASCEND_WORK_PATH | 容器内 | obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/ | |
CANN算子输入dump文件目录 | CANN进程 | NPU_COLLECT_PATH(L1 建议不设置) L0自动写到ASCEND_WORK_PATH中 | 容器内 | obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/extra-info/data-dump/ | |
CANN算子编译缓存文件目录 | CANN进程 | ASCEND_CACHE_PATH(建议不设置) | 容器内(可选) | - | |
训练日志 | 用户训练日志目录 | 训练进程 | 标准输出-->LTS-->OBS | 不落盘 | LTS--> obs://LogTanks/RegionName/%Y/%M/%D/日志组/日志流/日志文件名称。 |
NPU Device日志 | NPU环境检查文件目录 | NPU环境检查采集进程 | 通过脚本手动采集并上传至OBS,可根据时间定位找寻对应日志,参考NPU Device日志及OS日志转储说明 | 容器内(可选) | obs://$(NODE_NAME)-npu-log-datetime.tar.gz |
NPU Device侧日志目录 | msnpureport或msnpureport_auto_export.sh采集进程 | 宿主机 | |||
OS日志 | OS系统日志目录 | 容器内: OS日志采集进程<br>宿主机: OS系统进程 | 宿主机(可选) |
说明:
- CANN应用类日志中的CANN算子编译缓存一般用于算子问题定位,将会影响训练性能,建议不开启,发生算子问题再按需开启。
- CANN应用日志中的算子dump,默认会记录L0级别的dump,若需要开启L1级别的dump,则设置NPU_COLLECT_PATH环境变量即可(可以在args中export或者训练yaml env中为该环境变量指定一个本地路径),开启L1将会对性能有影响,建议不开启,发生故障需要定位时再按需开启。

