创建部署服务
模型需要部署成功后才可正式提供模型服务,平台支持将微调后的模型、系统预置的模型发布为模型服务,生成的模型服务可用于创建应用或调测模型。
前提条件
- 已购买推理单元资源,具体购买方法请参见购买AI原生应用引擎包年包月资源。
- 由于在线运行需消耗资源,请确保账户有可用资源,且用户费用状态正常。
- 已准备好模型,具体请参见创建接入模型服务。
部署模型服务
- 在AI原生应用引擎工作台的左侧导航栏选择“Agent编排中心 > 我的模型服务”。
- 在“我的模型服务”页面右上角单击“部署模型服务”。
- 在“创建部署服务”页面,配置模型信息,参数说明如表1所示。
- 配置部署模型参数,参数说明如表2所示。
表2 微调的模型部署参数说明 参数名称
参数说明
实例个数
设置模型服务部署的实例个数。
不同的模型部署1个实例需要的推理单元个数不同,比如,ChatGLM3-6B需要2个实例。
不同的模型因为模型参数量不同,模型参数量越多,需要消耗的资源越多,因此需要的推理单元个数越多。
推理单元资源
在下拉列表可以查看已购买的推理单元的可用个数,根据实际情况选择。
如果推理单元个数不足以满足实例个数,则需减少实例个数以使推理单元资源满足需求。
说明:在推理单元到期后,部署的模型将被下架,可通过购买推理单元资源恢复。
流控配置
超出流控值,则触发限流,用户的请求会因为流控而失败。
- 无限制
- 10次/秒
- 50次/秒
- 100次/秒
- 200次/秒
- 单击“保存”,部署模型服务,新部署的服务显示在“我部署的”页签中。
管理模型服务
部署模型服务完成后,可执行如下表3所示的管理模型服务相关操作。