训练日志介绍
本章介绍在Lite Cluster模式下训练日志配置及对接建议,包含四部分内容:CANN应用类日志、训练日志、NPU Device 日志、OS日志,其中客户自定义的训练日志(写入SFS Turbo日志)在此章节不涉及。
在训练过程中,有多种类型的日志可用于监控和分析:
- 标准输出(训练日志):这是用户最常关注的日志,其中包含了任务的实时运行状态、Loss值等关键信息。
- CANN应用类日志、Device侧日志、主机侧日志:这些日志提供了更深层次的系统和硬件信息,是定位和分析异常问题的关键。
如下表格详细介绍了这几种日志的详情、源头以及推荐的转储路径。
日志分类 |
日志文件 |
日志产生源 |
设置方式 |
日志落盘源 |
最终落盘路径 |
---|---|---|---|---|---|
CANN应用类日志 |
plog |
CANN进程 |
ASCEND_PROCESS_LOG_PATH |
容器内 |
obs://$(JOB_NAME)/$(NODE_NAME)/ascend_plog/ |
CANN软件栈日志 |
CANN进程 |
ASCEND_WORK_PATH |
容器内 |
obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/ |
|
CANN软件栈trace日志目录 |
CANN进程 |
ASCEND_WORK_PATH |
容器内 |
obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/ |
|
CANN算子输入dump文件目录 |
CANN进程 |
NPU_COLLECT_PATH(L1 建议不设置) L0自动写到ASCEND_WORK_PATH中 |
容器内 |
obs://$(JOB_NAME)/$(NODE_NAME)/ascend_work_path/log/extra-info/data-dump/ |
|
CANN算子编译缓存文件目录 |
CANN进程 |
ASCEND_CACHE_PATH(建议不设置) |
容器内(可选) |
- |
|
训练日志 |
用户训练日志目录 |
训练进程 |
标准输出-->LTS-->OBS |
不落盘 |
LTS--> obs://LogTanks/RegionName/%Y/%M/%D/日志组/日志流/日志文件名称。 |
NPU Device日志 |
NPU环境检查文件目录 |
NPU环境检查采集进程 |
通过脚本手动采集并上传至OBS,可根据时间定位找寻对应日志,参考NPU Device日志及OS日志转储说明 |
容器内(可选) |
obs://$(NODE_NAME)-npu-log-datetime.tar.gz |
NPU Device侧日志目录 |
msnpureport或msnpureport_auto_export.sh采集进程 |
宿主机 |
|||
OS日志 |
OS系统日志目录 |
容器内: OS日志采集进程<br>宿主机: OS系统进程 |
宿主机(可选) |
说明:
- CANN应用类日志中的CANN算子编译缓存一般用于算子问题定位,将会影响训练性能,建议不开启,发生算子问题再按需开启。
- CANN应用日志中的算子dump,默认会记录L0级别的dump,若需要开启L1级别的dump,则设置NPU_COLLECT_PATH环境变量即可(可以在args中export或者训练yaml env中为该环境变量指定一个本地路径),开启L1将会对性能有影响,建议不开启,发生故障需要定位时再按需开启。