部署模型服务
模型需要部署成功后才可正式提供模型服务。
本文介绍如何将微调后的模型、部分平台资产中心的模型或我创建的模型部署为模型服务。
前提条件
- 已购买推理单元资源,具体购买方法请参见购买AI原生应用引擎包年包月资源。
- 由于在线运行需消耗资源,请确保账户有可用资源,且用户费用状态正常。
- 需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参考AppStage组织成员申请权限。
部署模型服务
- 进入AI原生应用引擎。
- 在AI原生应用引擎的左侧导航栏选择“模型中心 > 我的模型服务”。
- 在“模型服务”页面,选择“我的模型服务 > 我部署的 > 部署模型服务”。
- 配置模型信息,参数说明如表1所示。
- 配置部署模型参数,参数说明如表2所示。
表2 微调的模型部署参数说明 参数名称
参数说明
实例个数
设置模型服务部署的实例个数。
不同的模型部署1个实例需要的推理单元个数不同,例如,ChatGLM3-6B需要2个实例。
不同的模型因为模型参数量不同,模型参数量越多,需要消耗的资源越多,因此需要的推理单元个数越多。
推理单元资源
在下拉列表可以查看已购买的推理单元的可用个数,根据实际情况选择。
如果推理单元个数不足以满足实例个数,则需减少实例个数以使推理单元资源满足需求。
在推理单元到期后,部署的模型将被下架,可通过购买推理单元资源恢复。
流控配置
超出流控值,则触发限流,用户的请求会因为流控而失败。
- 无限制
- 10次/秒
- 50次/秒
- 100次/秒
- 200次/秒
- 单击“保存”,完成部署任务创建,当前模型服务状态为“待启动”,请参考表3启用模型服务。
您也可以单击“保存并启动”,立即部署模型服务,在右侧模型效果预览区域,可以看到模型服务状态为“部署中”。部署完成后,模型服务状态变为“运行中”,此时才可进行模型调测及模型效果预览。
部署成功后,可以对模型服务进行模型调测,并支持在创建Agent时作为问答模型使用或通过模型调用接口调用。
- (可选)在模型调测区域,参考体验模型服务进行模型调测。
- (可选)在右侧“模型效果预览”区域,可通过以下两种方式进行模型测试。
- 在对话输入框输入测试语句后按Enter键或单击
进行模型测试。
- 单击“引用已有提示语模板”,弹出“选择模板”面板,可通过分类筛选我创建的、我收藏的或平台预置的提示语模板,然后按Enter键或单击
进行模型测试。
- 在对话输入框输入测试语句后按Enter键或单击
更多操作
部署模型服务完成后,可执行如下表3所示的管理模型服务相关操作。
操作 |
说明 |
---|---|
启用模型服务 |
启用后的模型服务才能进行调测以及在创建Agent时调用。
|
停用模型服务 |
|
修改模型服务 |
运行中的模型服务需要先停用,才能修改。 |
删除模型服务 |
状态为“部署中”或“运行中”的模型服务需要先停用,才能删除。
|
模型调测 |
只有部署完成的,状态为“运行中”的模型服务才能进行模型调测。
|
相关文档
- 模型服务部署后,可调测模型服务,请参考调测模型服务。
- 模型服务部署后,可在Agent、工作流中调用模型服务或通过API调用模型服务,请参考在AI原生应用引擎中创建单Agent(自主规划模式)、创建工作流以及模型调用。