部署为在线服务
模型训练完成后,即模型处于“已完成”状态时,可以启动模型的部署操作。
基于盘古大模型打造的专业大模型包括BI专业大模型与单场景大模型支持模型推理,但不支持模型训练。
部署为在线服务
- 登录盘古大模型套件平台。
- 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“部署”。
- 在创建部署页面,完成部署配置,填写基本信息。
表1 部署配置参数 参数名称
说明
选择模型
选择需要部署的模型。
推理资源
选择非限时免费的模型时显示。选择盘古大模型服务提供的在线推理资产。
部署方式
选择“在线部署”,即将算法部署至盘古大模型服务提供的资源池中。
推理资产
选择“已购资产”。
- 限时免费:使用免费的推理资源,仅支持部署一个实例。
- 已购资产:由用户购买的推理资源,实际可用推理单元由购买时的数量决定。
实例数
实例数越大,能够同时处理的请求数量越多。
高级配置
选择盘古-NLP-N4系列模型时显示,配置最大Token长度。
服务名称
在线服务的名称。
描述
在线服务的简要描述。
订阅提醒
勾选订阅提醒,并添加手机号/邮箱,系统将在训练任务完成或重要事件发生时,发送提醒。
表2 部署实例量与推理单元数关系 模型类型
推理资源
盘古-NLP-N1系列模型
- 4K版本:
当部署一个实例时,占用0.125个推理单元。
- 32K版本:
当部署一个实例时,占用0.125个推理单元。
- 128K版本:
当部署一个实例时,占用1个推理单元。
盘古-NLP-N2系列模型
当部署一个实例时,占用0.5个推理单元。
盘古-NLP-N4系列模型
当部署一个实例时,占用1个推理单元。
- 单击“立即创建”,下发模型部署任务。
使用外推扩展模型上下文处理长度
在部署模型、部署后修改模型规格时,可以通过外推功能调整模型的输入输出长度。修改部署时扩缩容和外推场景互斥,每次只能修改一个。
当前仅盘古-NLP-N4系列模型以及基于它们训练的模型支持外推。