更新时间:2025-01-05 GMT+08:00
压缩NLP大模型
模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。
当前仅支持对NLP大模型进行压缩。
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。
- 在“创建压缩任务”页面,选择需要压缩的基础模型,支持选择已发布模型或未发布模型。
- 选择压缩策略。除INT8压缩策略外,部分模型支持INT4压缩策略,可在选择模型后,根据页面展示的策略进行选择。
- INT8:该压缩策略将模型参数压缩至8位字节,可以有效降低推理显存占用。
- INT4:该压缩策略与INT8相比,可以进一步减少模型的存储空间和计算复杂度。
- 配置资源。选择计费模式并设置训练单元。
- 可选择开启订阅提醒。开启后,系统将在本次压缩任务状态变更时,向用户发送短信/邮件提醒。
- 填写基本信息,包括任务名称、压缩后模型名称与描述,单击“立即创建”。
父主题: 开发盘古NLP大模型