更新时间:2025-12-01 GMT+08:00
分享

创建NLP大模型部署任务

平台支持部署训练后的模型或预置模型,操作步骤如下:

  1. 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
    图1 我的空间
  2. 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“创建部署”。
  3. 在“创建部署”页面,参考表1完成部署参数设置。
    表1 NLP大模型部署参数说明

    参数分类

    部署参数

    参数说明

    部署配置

    选择模型

    可以修改如下信息:

    • 来源:选择“模型广场”。
    • 类型:选择“大语言模型”,并选择需要进行部署的模型和版本。

    部署方式

    支持“云上部署”和“边缘部署”,其中,云上部署指算法部署至平台提供的资源池中。边缘部署指算法部署至客户的边缘设备中(仅支持边缘部署的模型可配置边缘部署)。

    • 若选择“云上部署”,部分模型资产支持两种云上部署方式。
      • 混合部署:基础部署方式,所有场景适用,部署资源消耗较少。
      • 分离部署:性能优化部署方式,适用输入输出长度相对固定的场景,推理吞吐量提升但资源消耗增大。分离部署包含1:1、2:2两种形式的pd配比,建议用户根据场景需求,尝试不同配比,以达到全量时延、增量时延都满足要求的情况下,吞吐最大。
    • 部分模型资产支持边缘部署方式,若选择“边缘部署”:
      • 资源池:选择部署模型所需的边缘资源池,创建边缘资源池步骤请详见创建边缘资源池
      • CPU:部署需要使用的最小CPU值(物理核)。
      • 内存:部署需要使用的最小内存值。
      • Ascend:部署使用的NPU数量。
      • 实例数:设置部署模型时所需的实例数。

    最大TOKEN长度

    模型处理序列长度最大值。

    环境变量(可选)

    环境变量可影响模型推理性能、效果等,在非必要时不建议修改,使用默认值即可。参见表2了解环境变量用法。

    自定义名称

    此名称是通过V2版本推理接口调用该推理服务时的唯一标识。创建后不支持修改。

    安全护栏

    安全护栏开关

    安全护栏保障模型调用安全。

    版本选择

    当前支持安全护栏基础版,内置了默认的内容审核规则。

    资源配置(选择云上部署时)

    计费模式

    根据当前计费方式选择

    实例数

    设置部署模型时所需的实例数。

    订阅提醒

    订阅提醒

    该功能开启后,平台支持两种订阅类型,预置通知和SMN通知。

    预置通知:系统将在任务状态运行、失败或者告警时,通过短信或邮件将提醒发送给用户。

    SMN通知:用户可在SMN云服务创建主题并维护订阅信息,在创建部署时选择对应主题以及需要通知的状态。训练状态范围:运行、失败、告警。

    基本信息

    服务名称

    设置部署任务的名称。

    描述(选填)

    设置部署任务的描述。

    标签(选填)

    设置部署任务的标签,部署和更新模型时,以“SERVICE_TAGS_CONFIG”为key,标签信息的json体Base64字符串为value添加到模型服务的环境变量中。

    表2 环境变量说明

    环境变量

    描述

    限制说明

    NUM_SCHEDULER_STEP

    使用多步调度可以提高模型推理性能。当前默认为8,可选值1,2,4,6,8。

    -

    ENABLE_PREFIX_CACHING

    使用前缀缓存可复用近期相同的请求的缓存,降低首token推理耗时。当前FP16模型默认开启

    此参数仅支持FP16模型

  4. 参数填写完成后,单击“立即部署”。

如果部署失败,请参考NLP大模型推理常见错误及解决方案做初步定位。

相关文档