更新时间:2025-08-22 GMT+08:00
分享

部署模型服务

模型需要部署成功后才可正式提供模型服务。

本文介绍如何将微调后的模型、部分平台资产中心的模型或我创建的模型部署为模型服务。

前提条件

部署模型服务

  1. 进入AI原生应用引擎
  2. 在AI原生应用引擎的左侧导航栏选择“模型中心 > 我的模型服务”。
  3. 在“模型服务”页面,选择“我的模型服务 > 我部署的 > 部署模型服务”。
  4. 配置模型信息,参数说明如表1所示。

    表1 模型信息参数说明

    参数名称

    参数说明

    模型来源

    • 微调的模型

      仅支持模型类型为“文本对话”。

    • 平台模型

      仅支持模型类型为“文本对话”和“文本向量化”。

    • 我创建的

      仅支持模型类型为“文本对话”、“文本向量化”和“文本排序”。

    选择模型

    在下拉列表选择待部署的模型。

    服务名称

    自定义模型服务名称,支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2-36个字符,仅支持以中英文开头。

    模型服务描述

    用户自定义的模型服务相关描述。

    标签

    为模型服务选择标签分类。可从以下几个维度选择(支持多选):

    • 行业:模型服务所适用的行业。
    • 适用领域:模型服务的适用领域。
    • 通用:通用维度。

  5. 配置部署模型参数,参数说明如表2所示。

    表2 微调的模型部署参数说明

    参数名称

    参数说明

    实例个数

    设置模型服务部署的实例个数。

    不同的模型部署1个实例需要的推理单元个数不同,例如,ChatGLM3-6B需要2个实例。

    不同的模型因为模型参数量不同,模型参数量越多,需要消耗的资源越多,因此需要的推理单元个数越多。

    推理单元资源

    在下拉列表可以查看已购买的推理单元的可用个数,根据实际情况选择。

    如果推理单元个数不足以满足实例个数,则需减少实例个数以使推理单元资源满足需求。

    在推理单元到期后,部署的模型将被下架,可通过购买推理单元资源恢复。

    流控配置

    超出流控值,则触发限流,用户的请求会因为流控而失败。

    • 无限制
    • 10次/秒
    • 50次/秒
    • 100次/秒
    • 200次/秒

  6. 单击“保存”,完成部署任务创建,当前模型服务状态为“待启动”,请参考表3启用模型服务。

    您也可以单击“保存并启动”,立即部署模型服务,在右侧模型效果预览区域,可以看到模型服务状态为“部署中”。部署完成后,模型服务状态变为“运行中”,此时才可进行模型调测及模型效果预览。

    部署成功后,可以对模型服务进行模型调测,并支持在创建Agent时作为问答模型使用或通过模型调用接口调用。

  7. (可选)在模型调测区域,参考体验模型服务进行模型调测。
  8. (可选)在右侧“模型效果预览”区域,可通过以下两种方式进行模型测试。

    • 在对话输入框输入测试语句后按Enter键或单击进行模型测试。
    • 单击“引用已有提示语模板”,弹出“选择模板”面板,可通过分类筛选我创建的、我收藏的或平台预置的提示语模板,然后按Enter键或单击进行模型测试。

更多操作

部署模型服务完成后,可执行如下表3所示的管理模型服务相关操作。

表3 更多操作

操作

说明

启用模型服务

启用后的模型服务才能进行调测以及在创建Agent时调用。

  1. 在“我部署的”模型服务列表中,单击操作列的“启用”,开始部署模型,此时模型服务状态显示为“部署中”。
  2. 当模型状态变为“运行中”时,表示已部署完成,模型成功启用。如果部署失败,模型状态显示为“失败”,您可以检查配置后重新启用。

停用模型服务

  1. 在“我部署的”模型服务列表中,单击操作列的“停用”,此时模型服务状态显示为“停止中”。
  2. 当模型状态变为“停止”时,表示模型服务已停用;如果停用失败,模型状态显示为“失败”。

修改模型服务

运行中的模型服务需要先停用,才能修改。

  1. 在“我部署的”模型服务列表中,选择操作列“更多 > 修改”。
  2. 参照步骤2步骤3,修改基础信息和配置信息。

删除模型服务

状态为“部署中”或“运行中”的模型服务需要先停用,才能删除。

  1. 在“我部署的”模型服务列表中,选择操作列“更多 > 删除”。
  2. 单击“确认”。

模型调测

只有部署完成的,状态为“运行中”的模型服务才能进行模型调测。

  1. 在“我部署的”模型服务列表中,单击操作列的“模型调测”。
  2. 参照调测模型的步骤,完成模型调测。

相关文档

相关文档