更新时间:2024-12-03 GMT+08:00
压缩NLP大模型
模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。当前仅支持对NLP大模型进行压缩。采用的压缩方式是INT8,INT8量化压缩可以显著减小模型的存储大小,降低功耗,并提高计算速度。
- 登录ModelArts Studio大模型开发平台,进入所需操作空间。
图1 进入操作空间
- 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。参考表1创建模型压缩任务。
- 参数填写完成后单击“立即创建”创建模型压缩任务。
父主题: 开发盘古NLP大模型