文档首页/ AI开发平台ModelArts/ ModelArts用户指南（Studio）/ 使用MaaS压缩模型

更新时间：2024-12-25 GMT+08:00

使用MaaS压缩模型

在ModelArts Studio大模型即服务平台完成模型创建后，可以对模型进行压缩，获得更合适的模型。

场景描述

模型压缩是指将高比特浮点数映射到低比特量化空间，从而减少显存占用的资源，降低推理服务时延，提高推理服务吞吐量，并同时减少模型的精度损失。模型压缩适用于追求更高的推理服务性能、低成本部署以及可接受一定精度损失的场景。

ModelArts Studio大模型即服务平台当前支持SmoothQuant-W8A8和AWQ-W4A16两种压缩策略。

表1 压缩策略的适用场景
压缩策略	场景
SmoothQuant-W8A8	长序列的场景大并发量的场景
AWQ-W4A16	小并发量的低时延场景更少推理卡数部署的场景

约束限制

表2列举了支持模型压缩的模型，不在表格里的模型不支持使用MaaS压缩模型。

表2 支持模型压缩的模型
模型名称	SmoothQuant-W8A8	AWQ-W4A16
Llama2-13B	√	√
Llama2-70B	√	√
Llama2-7B	√	√
Llama3-70B	√	√
Llama3-8B	√	√
Qwen1.5-14B	√	√
Qwen1.5-72B	√	√
Qwen1.5-7B	√	√
Qwen2-72B	√	x
Qwen2-72B-1K	√	x
Qwen2.5-72B	√	x
Qwen2.5-32B	√	√

前提条件

在“我的模型”页面存在已创建成功的模型。
已准备好用于存放压缩后模型权重文件的OBS桶，OBS桶必须和MaaS服务在同一个Region下。

创建压缩作业

登录ModelArts管理控制台。
在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
在ModelArts Studio左侧导航栏中，选择“模型压缩”进入作业列表。

单击“创建压缩作业”进入创建页面，完成创建配置。

表3 创建压缩作业
参数		说明
任务设置	任务名称	自定义压缩任务名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。
任务设置	描述	压缩任务简介。支持1000字符。
模型设置	来源模型	单击“选择模型”，选择“模型广场”或“我的模型”下面的模型。
	压缩策略	SmoothQuant-W8A8：SmoothQuant是一种同时确保准确率与推理高效的训练后量化（PTQ）方法，W8A8可实现8-bit权重、8-bit激活（W8A8）量化，引入平滑因子来平滑激活异常值，将量化难度从较难量化的激活转移到容易量化的权重上。 AWQ-W4A16：AWQ是一种大模型低比特权重的训练后量化（PTQ）方法，W4A16可实现4-bit权重、16-bit激活（W4A16）量化，通过激活值来选择并放大显著权重，以提高推理效率。
	压缩后模型名称	设置压缩后产生的新模型的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、下划线（_）、中划线（-）和（.）。
参数设置	平滑系数/Migration Strength	设置SmoothQuant量化的迁移系数，仅“压缩策略”选择“SmoothQuant-W8A8”时才需要配置。建议使用默认值。取值范围：0~1 默认值：0.5
参数设置	压缩后模型权重保存路径	选择压缩后模型权重文件存放的OBS路径。
资源设置	资源池类型	资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。
资源设置	实例规格	选择实例规格，规格中描述了服务器类型、型号等信息。
更多选项	永久保存日志	选择是否打开“永久保存日志”开关。开关关闭（默认关闭）：表示不永久保存日志，则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。开关打开：表示永久保存日志，此时必须配置“日志路径”，系统会将任务日志永久保存至指定的OBS路径。
	事件通知	选择是否打开“事件通知”开关。开关关闭（默认关闭）：表示不启用消息通知服务。开关打开：表示订阅消息通知服务，当任务发生特定事件（如任务状态变化或疑似卡死）时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。 “事件”：选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。说明：需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。使用消息通知服务会产生相关服务费用，详细信息请参见计费说明。
	自动停止	当使用付费资源时，可以选择是否打开“自动停止”开关。开关关闭（默认关闭）：表示任务将一直运行直至完成。开关打开：表示启用自动停止功能，此时必须配置自动停止时间，支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后，运行时长到期后将会自动终止任务，准备排队等状态不扣除运行时长。

参数配置完成后，单击“提交”，在“计费提醒”对话框，确认模型压缩的信息和预计消耗费用无误后，单击“确定”创建压缩作业。
在作业列表，当模型“状态”变成“已完成”时，表示模型压缩完成。

模型压缩时长估算

表4 模型压缩时长估算
模型名称	SmoothQuant-W8A8	AWQ-W4A16
Llama2-13B	5~10分钟	60分钟
Llama2-70B	20~30分钟	3小时
Llama2-7B	5~10分钟	40分钟
Llama3-70B	20~30分钟	3小时
Llama3-8B	5~10分钟	40分钟
Qwen1.5-14B	5~10分钟	60分钟
Qwen1.5-72B	20~30分钟	3小时
Qwen1.5-7B	5~10分钟	40分钟
Qwen2-72B	20~30分钟	-
Qwen2-72B-1K	20~30分钟	-
Qwen2.5-72B	40分钟	-
Qwen2.5-32B	20~30分钟	2小时

查看压缩作业信息

登录ModelArts管理控制台。
在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
在ModelArts Studio左侧导航栏中，选择“模型压缩”进入作业列表。
单击作业名称，进入压缩作业详情页面，可以查看作业详情和日志。
- “详情”：可以查看作业的基本信息，包括作业、模型、资源等设置信息。
- “日志”：可以搜索、查看和下载作业日志。

删除压缩作业

删除操作无法恢复，请谨慎操作。

登录ModelArts管理控制台。
在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
在ModelArts Studio左侧导航栏中，选择“模型压缩”进入列表。
选择压缩作业，单击操作列的“删除”，在弹窗中输入“DELETE”，单击“确定”，删除作业。

上一篇：使用MaaS调优模型

下一篇：使用MaaS部署模型服务

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

使用MaaS压缩模型

场景描述

约束限制

前提条件

创建压缩作业

模型压缩时长估算

查看压缩作业信息

删除压缩作业

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线