压缩盘古行业NLP大模型
模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。
平台当前仅可对NLP大模型进行压缩,支持压缩的模型清单请详见《产品介绍》> “模型能力与规格 > 盘古NLP大模型能力与规格”。
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。
- 在“选择模型”页面,选择“模型广场 > 大语言模型 > 模型”,单击“确定”进入“创建压缩任务”页面。
- 在“创建压缩任务”页面,参考表1完成压缩任务参数设置后,单击“立即创建”。
当压缩任务状态为“已完成”时,表示模型已完成压缩操作。
表1 模型压缩任务参数说明 参数类别
参数名称
说明
压缩配置
选择模型
可以修改如下信息:
- 来源:选择“模型广场”或者“我的资产”。
- 类型:选择“大语言模型”,并选择要进行压缩的模型和版本。
压缩策略
盘古大模型使用INT4(W4A16)/INT8(W8A8,W8A16)压缩策略。同等QPS目标下,INT8可以降低推理显存占用,与INT8相比,INT4可以进一步检视模型的存储需求和计算复杂度。
当前平台支持的量化策略包括:W4A16量化,W8A8量化和W8A16量化等策略。
- W4A16量化:能显著降低模型显存以及需要部署的卡数(约75%)。大幅降低小batch下的增量推理时延。
- W8A8量化:能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。
- W8A16量化:不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。
资源配置
计费模式
选择压缩当前任务的计费模式。
训练单元
选择压缩模型所需的训练单元。
当前展示的完成本次压缩所需要的最低训练单元要求。
训练单元总数
用户当前拥有的训练单元总数。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
发布模型
是否开启自动发布
关闭,训练完成后手动发布到模型资产。
开启,配置可见性、模型名称和描述。
基本信息
任务名称
模型压缩任务的名称。
压缩后模型名称
设置压缩后的模型名称。(开启自动发布,无该配置项)
描述
模型压缩任务的描述。