使用MaaS压缩模型
在ModelArts Studio大模型即服务平台完成模型创建后,可以对模型进行压缩,获得更合适的模型。
场景描述
模型压缩是指将高比特浮点数映射到低比特量化空间,从而减少显存占用的资源,降低推理服务时延,提高推理服务吞吐量,并同时减少模型的精度损失。模型压缩适用于追求更高的推理服务性能、低成本部署以及可接受一定精度损失的场景。
压缩策略 |
场景 |
---|---|
SmoothQuant-W8A8 |
|
AWQ-W4A16 |
|
约束限制
前提条件
- 在“我的模型”页面存在已创建成功的模型。
- 已准备好用于存放压缩后模型权重文件的OBS桶,OBS桶必须和MaaS服务在同一个Region下。
创建压缩任务
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型压缩”进入任务列表。
- 单击“创建压缩任务”进入创建页面,完成创建配置。
表3 创建压缩任务 参数
说明
任务设置
任务名称
自定义压缩任务名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。
描述
压缩任务简介。支持1000字符。
模型设置
模型来源
单击“选择模型”,从“我的模型”列表中选择需要压缩的模型。
压缩策略
- SmoothQuant-W8A8:SmoothQuant是一种同时确保准确率与推理高效的训练后量化(PTQ)方法,W8A8可实现8-bit权重、8-bit激活(W8A8)量化,引入平滑因子来平滑激活异常值,将量化难度从较难量化的激活转移到容易量化的权重上。
- AWQ-W4A16:AWQ是一种大模型低比特权重的训练后量化(PTQ)方法,W4A16可实现4-bit权重、16-bit激活(W4A16)量化,通过激活值来选择并放大显著权重,以提高推理效率。
压缩后模型名称
设置压缩后产生的新模型的名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、下划线(_)、中划线(-)和(.)。
参数设置
平滑系数/Migration Strength
设置SmoothQuant量化的迁移系数,仅“压缩策略”选择“SmoothQuant-W8A8”时才需要配置。建议使用默认值。
取值范围:0~1
默认值:0.5
压缩后模型权重保存路径
选择压缩后模型权重文件存放的OBS路径。
资源设置
资源池类型
资源池分为公共资源池与专属资源池。
- 公共资源池供所有租户共享使用。
- 专属资源池需单独创建,不与其他租户共享。
实例规格
选择实例规格,规格中描述了服务器类型、型号等信息。
更多选项
永久保存日志
选择是否打开“永久保存日志”开关。
- 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。
- 开关打开:表示永久保存日志,此时必须配置“日志路径”,系统会将任务日志永久保存至指定的OBS路径。
事件通知
选择是否打开“事件通知”开关。
- 开关关闭(默认关闭):表示不启用消息通知服务。
- 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。
- “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
- “事件”:选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。
自动停止
当使用付费资源时,可以选择是否打开“自动停止”开关。
- 开关关闭(默认关闭):表示任务将一直运行直至完成。
- 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。
- 参数配置完成后,单击“提交”,创建压缩任务。
在任务列表,当模型“状态”变成“已完成”时,表示模型压缩完成。
模型压缩时长估算
模型名称 |
SmoothQuant-W8A8 |
AWQ-W4A16 |
---|---|---|
Llama2-13B |
10~20分钟 |
60分钟 |
Llama2-70B |
40分钟 |
3小时 |
Llama2-7B |
10~20分钟 |
40分钟 |
Llama3-70B |
40分钟 |
3小时 |
Llama3-8B |
10~20分钟 |
40分钟 |
Qwen1.5-14B |
10~20分钟 |
60分钟 |
Qwen1.5-72B |
40分钟 |
3小时 |
Qwen1.5-7B |
10~20分钟 |
40分钟 |
Qwen2-72B |
40分钟 |
- |
Qwen2-72B-1K |
40分钟 |
- |
查看压缩任务信息
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型压缩”进入任务列表。
- 单击任务名称,进入压缩任务详情页面,可以查看任务详情和日志。
- “详情”:可以查看任务的基本信息,包括任务、模型、资源等设置信息。
- “日志”:可以搜索、查看和下载任务日志。
删除压缩任务
删除操作无法恢复,请谨慎操作。
- 登录ModelArts管理控制台。
- 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
- 在ModelArts Studio左侧导航栏中,选择“模型压缩”进入任务列表。
- 选择压缩任务,单击操作列的“删除”,在弹窗中输入“DELETE”,单击“确定”,删除任务。