更新时间:2025-09-16 GMT+08:00
分享

压缩盘古行业NLP大模型

模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。

平台当前仅可对NLP大模型进行压缩,支持压缩的模型清单请详见《产品介绍》> “模型能力与规格 > 盘古NLP大模型能力与规格”。

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。
  3. 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建压缩任务”页面。
  4. “创建压缩任务”页面,参考表1完成压缩任务参数设置后,单击“立即创建”。

    当压缩任务状态为“已完成”时,表示模型已完成压缩操作。

    表1 模型压缩任务参数说明

    参数类别

    参数名称

    说明

    压缩配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”或者“我的资产”。
    • 类型:选择“大语言模型”,并选择要进行压缩的模型和版本。

    压缩策略

    盘古大模型使用INT4(W4A16)/INT8(W8A8,W8A16)压缩策略。同等QPS目标下,INT8可以降低推理显存占用,与INT8相比,INT4可以进一步检视模型的存储需求和计算复杂度。

    当前平台支持的量化策略包括:W4A16量化,W8A8量化和W8A16量化等策略。

    • W4A16量化:能显著降低模型显存以及需要部署的卡数(约75%)。大幅降低小batch下的增量推理时延。
    • W8A8量化:能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。
    • W8A16量化:不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。

    资源配置

    计费模式

    选择压缩当前任务的计费模式。

    训练单元

    选择压缩模型所需的训练单元。

    当前展示的完成本次压缩所需要的最低训练单元要求。

    训练单元总数

    用户当前拥有的训练单元总数。

    订阅提醒

    订阅提醒

    该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。

    发布模型

    是否开启自动发布

    关闭,训练完成后手动发布到模型资产。

    开启,配置可见性、模型名称和描述。

    基本信息

    任务名称

    模型压缩任务的名称。

    压缩后模型名称

    设置压缩后的模型名称。(开启自动发布,无该配置项)

    描述

    模型压缩任务的描述。

相关文档