更新时间:2024-12-30 GMT+08:00
分享

精度对齐

精度问题是指模型从GPU设备迁移到昇腾NPU设备之后由于软硬件差异引入的精度问题。根据是否在单卡环境下,可分为单卡精度问题与多卡精度问题。多卡相对于单卡,会有卡与卡之间的通信,这可能也是精度偏差的一种来源。所以多卡的精度对齐问题相对于单卡会更复杂。不过针对多卡的精度问题,可以分步骤先保证单卡对齐精度,然后分析通信过程的偏差。本文针对单卡的情形给出基于ptdbg-ascend精度对比工具的精度排查过程。

loss曲线对比

训练结束后,在output_dir参数指定目录下会输出trainer_state.json文件,该文件保存了训练过程loss以及learning_rate的Log信息。

将GPU设备训练输出的trainer_state.json文件重命名为trainer_state_gpu.json,并复制到NPU节点的容器内,将NPU设备训练输出的trainer_state.json文件重命名为trainer_state_npu.json。

对其进行解析就可以获取loss信息,这里可以使用如下脚本进行loss曲线的绘制。

# compare_metric.py
import json
import os
from typing import List, Dict
 
import matplotlib.pyplot as plt
import numpy as np
 
## 解析 json 文件
def load_trainer_status(file_path):
    with open(file_path, "r") as f:
        trainer_status = json.load(f)
    return trainer_status.get("log_history")
 
def plot_curve(data_source: List[Dict], tags: List[str]):
    fig, ax = plt.subplots()
    for tag in tags:
        # print(data_source[0], len(data_source[0]))
        # assert all([tag in status.keys() for status in data_source]), f"Tag {tag} is missing for data source."
        for index, source in enumerate(data_source):
            y = []
            x = []
            for log in source:
                x.append(log.get("step"))
                y.append(log.get(tag))
            ax.plot(x, y, label=f"{tag}_{index}")
 
    ax.legend()
    plt.savefig("loss.png")
 
if __name__ == "__main__":
    state_npu_path = os.path.join("trainer_state_npu.json")
    state_gpu_path = os.path.join("trainer_state_gpu.json")
    state_npu = load_trainer_status(state_npu_path)
    state_gpu = load_trainer_status(state_gpu_path)
    plot_curve([state_npu, state_gpu], ["loss"])

对比单卡模式下NPU和GPU训练曲线,发现loss曲线下降趋势不一致,说明迁移的模型存在精度偏差。

图1 loss曲线对比

图中蓝色loss_0是NPU迭代曲线,黄色loss_1是GPU的迭代曲线。

问题定位解决

使用ptdbg_ascend工具dump全网数据,dump接口设置方法具体参考PyTorch精度工具。dump完成后compare GPU和NPU结果进行分析。

  1. dropout算子引入了随机性偏差,如下图:
    图2 随机性偏差

    根据堆栈信息定位得知dropout是使用的torch.nn.Dropout(),为消除随机性需要将随机因子p改为0或者1,此处是将model_chatglm.py中随机因子改为了0,修改如下:

    图3 随机因子改为0
  2. 使用ptdbg修改register_hook方式做精度溢出检查。

    结果显示Tensor___add___233_forward执行时有溢出,这里使用浮点数精度的是float16,结果显示输入的最大、最小、平均值都为65504(float16的精度范围是-65504至65504),如下图所示:

    图4 精度溢出检查

    因为在NPU下对INF和NAN的支持默认是饱和模式,会将INF置为MAX,NAN置为0,此处Tensor___add___233_forward的输入输出都是fp16的,会将Inf置为65504。 但是在GPU下采用的是INF_NAN模式(保留INF及NAN的结果),所以在做精度对比时先修改NPU支持模式为INF_NAN模式与GPU保持一致。

    开启INF_NAN模式方式命令如下:

    #shell
    export INF_NAN_MODE_ENABLE=1

    修改之后再次做溢出检查显示所有API正常,无溢出情况。

  3. GPU dump数据缺失,从Tensor_transpose_2_forward_output之后没有与NPU对应的bench data数据。
    图5 GPU dump数据

    在pkl文件中找到对应缺失的位置,发现Tensor_transpose_2_forward_output之后,NPU下一个执行的算子是Tensor_squeeze_0_forward_input,而GPU下一个执行的算子是Tensor___getitem___6_forward_input。

    图6 api_stack_dump.pkl

    根据stack信息查找到对应源码的代码行,发现对应函数上添加了@torch.jit.script装饰器,经过调试发现,GPU也执行了这个函数,但是没有dump算子执行信息,而且pdb无法在函数中正常中断,删除此装饰器后,GPU能够正常dump数据。

    图7 删除@torch.jit.script装饰器

    加了@torch.jit.script装饰器,torch_npu能采到数据,而GPU上则不行的原因为:@torch.jit.script装饰器会将装饰函数作为ScriptFunction对象返回,不会产生dump数据。而目前该装饰器在torch_npu下不生效,NPU会按照普通函数执行,因此能够采集到数据。从精度对比角度考虑,先删除@torch.jit.script可以保证这块GPU和NPU dump的数据对齐。

  4. compare表中Cosine列第一个出现偏差的位置,为einsum算子的输入。
    图8 Cosine列的偏差

    查看堆栈信息发现是self.inv_freq的值存在精度偏差,再追溯到self.inv_freq的定义片段。

    图9 inv_freq的定义片段

    通过构造该计算公式,发现在x86上:torch+CPU和torch+GPU以及aarch64 torch+NPU场景的结果都是一致的,而aarch64 torch+CPU结果不同,如下所示:

    图10 torch+CPU
    图11 torch+GPU
    图12 aarch64 torch+NPU
    图13 aarch64 torch+CPU

    而inv_freq恰好都是在CPU上初始化。修改NPU版代码,强制使用torch+NPU进行初始化后,可以消除einsum算子输入偏差的问题。修改如下:

    inv_freq = 1. / (base ** (torch.arange(0, dim, 2).float().npu() / dim))

    另外的一种修改方式是转换到dobule下进行计算。

    图14 转换到dobule下进行计算
  5. 修复上述问题后,Cosine值第一次出现偏差的位置为permute算子,在backward阶段作为input引入。
    图15 permute算子偏差

    由于在backward阶段ptdbg-ascend没有输出执行的堆栈信息,先查找了Tensor_permute_0在forward阶段相应的堆栈信息。

    图16 Tensor_permute_0在forward阶段相应的堆栈信息

    可以得知此处进行了换轴操作,但是在forward时输入输出均无精度异常。

    因此转换排查思路,全局查找Cosine、MaxAbsErr值和Tensor_permute_0_backward相同的行。发现在Tensor___getitem___490_backward_output.0处MaxAbsErr的值和Tensor_permute_0_backward一样。

    图17 Tensor___getitem___490_backward_output.0

    并且Bench data列的max、min、mean对应值也一致,但是Tensor___getitem___490_backward_output.0在NPU下的max、min、mean值都是0,代表该处是全零的向量。猜想应该是梯度计算错误。使用PyTorch的index_select函数作为getitem函数的替代,对modeling_chatglm.py做如下修改:

    图18 modeling_chatglm.py修改

    再次dump对比精度,发现该算子精度问题得到解决。

    图19 Tensor_permute_0精度对比
    图20 算子精度对比

    修改上述问题之后,重新对比精度数据后发现,重新进行训练任务,通过对比NPU和GPU的loss曲线,可以发现,两者的下降趋势几乎是一致的。

    图21 loss曲线

    图中蓝色loss_0是NPU的loss曲线,黄色loss_1是GPU的loss曲线。

相关文档