更新时间:2025-01-05 GMT+08:00
分享

压缩NLP大模型

模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。

当前仅支持对NLP大模型进行压缩。

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
  2. 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。
  3. 在“创建压缩任务”页面,选择需要压缩的基础模型,支持选择已发布模型或未发布模型。
  4. 选择压缩策略。除INT8压缩策略外,部分模型支持INT4压缩策略,可在选择模型后,根据页面展示的策略进行选择。
    • INT8:该压缩策略将模型参数压缩至8位字节,可以有效降低推理显存占用。
    • INT4:该压缩策略与INT8相比,可以进一步减少模型的存储空间和计算复杂度。
  5. 配置资源。选择计费模式并设置训练单元。
  6. 可选择开启订阅提醒。开启后,系统将在本次压缩任务状态变更时,向用户发送短信/邮件提醒。
  7. 填写基本信息,包括任务名称、压缩后模型名称与描述,单击“立即创建”。

    当压缩任务状态为“已完成”时,表示模型已完成压缩操作。

相关文档