更新时间:2024-12-03 GMT+08:00
分享

压缩NLP大模型

模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。当前仅支持对NLP大模型进行压缩。采用的压缩方式是INT8,INT8量化压缩可以显著减小模型的存储大小,降低功耗,并提高计算速度。

  1. 登录ModelArts Studio大模型开发平台,进入所需操作空间。
    图1 进入操作空间
  2. 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。参考表1创建模型压缩任务。
    表1 模型压缩任务参数说明

    参数类别

    参数名称

    说明

    压缩配置

    压缩模型

    选择需要进行压缩的模型,可使用来自资产的模型或任务的模型。

    压缩策略

    例如,可使用INT8压缩策略,同等QPS目标下,INT8可以降低推理显存占用。

    基本信息

    任务名称

    模型压缩任务的名称。

    描述

    模型压缩任务的描述。

  3. 参数填写完成后单击“立即创建”创建模型压缩任务。

相关文档