部署模型服务

模型需要部署成功后才可正式提供模型服务。

本文介绍如何将微调后的模型、部分平台资产中心的模型或我创建的模型部署为模型服务。

配置模型信息，参数说明如表1所示。

表1 模型信息参数说明
参数名称	参数说明
模型来源	微调的模型仅支持模型类型为“文本对话”。平台模型仅支持模型类型为“文本对话”和“文本向量化”。我创建的仅支持模型类型为“文本对话”、“文本向量化”和“文本排序”。
选择模型	在下拉列表选择待部署的模型。
服务名称	自定义模型服务名称，支持中英文、数字、中划线（-）、下划线（_）、点（.），长度2-36个字符，仅支持以中英文开头。
模型服务描述	用户自定义的模型服务相关描述。
标签	为模型服务选择标签分类。可从以下几个维度选择（支持多选）：行业：模型服务所适用的行业。适用领域：模型服务的适用领域。通用：通用维度。

配置部署模型参数，参数说明如表2所示。

表2 微调的模型部署参数说明
参数名称	参数说明
实例个数	设置模型服务部署的实例个数。不同的模型部署1个实例需要的推理单元个数不同，例如，ChatGLM3-6B需要2个实例。不同的模型因为模型参数量不同，模型参数量越多，需要消耗的资源越多，因此需要的推理单元个数越多。
推理单元资源	在下拉列表可以查看已购买的推理单元的可用个数，根据实际情况选择。如果推理单元个数不足以满足实例个数，则需减少实例个数以使推理单元资源满足需求。在推理单元到期后，部署的模型将被下架，可通过购买推理单元资源恢复。
流控配置	超出流控值，则触发限流，用户的请求会因为流控而失败。无限制 10次/秒 50次/秒 100次/秒 200次/秒

单击“保存”，完成部署任务创建，当前模型服务状态为“待启动”，请参考表3启用模型服务。

您也可以单击“保存并启动”，立即部署模型服务，在右侧模型效果预览区域，可以看到模型服务状态为“部署中”。部署完成后，模型服务状态变为“运行中”，此时才可进行模型调测及模型效果预览。

部署成功后，可以对模型服务进行模型调测，并支持在创建Agent时作为问答模型使用或通过模型调用接口调用。
（可选）在模型调测区域，参考体验模型服务进行模型调测。
（可选）在右侧“模型效果预览”区域，可通过以下两种方式进行模型测试。
- 在对话输入框输入测试语句后按Enter键或单击进行模型测试。
- 单击“引用已有提示语模板”，弹出“选择模板”面板，可通过分类筛选我创建的、我收藏的或平台预置的提示语模板，然后按Enter键或单击进行模型测试。

部署模型服务完成后，可执行如下表3所示的管理模型服务相关操作。

表3 更多操作
操作	说明
启用模型服务	启用后的模型服务才能进行调测以及在创建Agent时调用。在“我部署的”模型服务列表中，单击操作列的“启用”，开始部署模型，此时模型服务状态显示为“部署中”。当模型状态变为“运行中”时，表示已部署完成，模型成功启用。如果部署失败，模型状态显示为“失败”，您可以检查配置后重新启用。
停用模型服务	在“我部署的”模型服务列表中，单击操作列的“停用”，此时模型服务状态显示为“停止中”。当模型状态变为“停止”时，表示模型服务已停用；如果停用失败，模型状态显示为“失败”。
修改模型服务	运行中的模型服务需要先停用，才能修改。在“我部署的”模型服务列表中，选择操作列“更多 > 修改”。参照步骤2和步骤3，修改基础信息和配置信息。
删除模型服务	状态为“部署中”或“运行中”的模型服务需要先停用，才能删除。在“我部署的”模型服务列表中，选择操作列“更多 > 删除”。单击“确认”。
模型调测	只有部署完成的，状态为“运行中”的模型服务才能进行模型调测。在“我部署的”模型服务列表中，单击操作列的“模型调测”。参照调测模型的步骤，完成模型调测。

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨