更新时间:2024-09-03 GMT+08:00
分享

部署为在线服务

模型训练完成后,即模型处于“已完成”状态时,可以启动模型的部署操作。

基于盘古大模型打造的专业大模型包括BI专业大模型与单场景大模型支持模型推理,但不支持模型训练。

部署为在线服务

  1. 登录盘古大模型套件平台。
  2. 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“部署”。
  3. 在创建部署页面,完成部署配置,填写基本信息。
    表1 部署配置参数

    参数名称

    说明

    选择模型

    选择需要部署的模型。

    推理资源

    选择非限时免费的模型时显示。选择盘古大模型服务提供的在线推理资产。

    部署方式

    选择“在线部署”,即将算法部署至盘古大模型服务提供的资源池中。

    推理资产

    选择“已购资产”。

    • 限时免费:使用免费的推理资源,仅支持部署一个实例。
    • 已购资产:由用户购买的推理资源,实际可用推理单元由购买时的数量决定。

    实例数

    实例数越大,能够同时处理的请求数量越多。

    高级配置

    选择盘古-NLP-N4系列模型时显示,配置最大Token长度。

    服务名称

    在线服务的名称。

    描述

    在线服务的简要描述。

    订阅提醒

    勾选订阅提醒,并添加手机号/邮箱,系统将在训练任务完成或重要事件发生时,发送提醒。

    表2 部署实例量与推理单元数关系

    模型类型

    推理资源

    盘古-NLP-N1系列模型

    2K版:部署1实例占用0.125个推理单元。

    8K版:最大Token长度为8192,部署1实例占用0.125个推理单元;最大Token长度为16384,部署1实例占用0.25个推理单元。

    盘古-NLP-N2系列模型

    部署1实例占用0.5个推理单元。

    盘古-NLP-N4系列模型

    部署1实例占用1个推理单元。

  4. 单击“立即创建”,下发模型部署任务。

使用外推扩展模型上下文处理长度

在部署模型、部署后修改模型规格时,可以通过外推功能调整模型的输入输出长度。修改部署时扩缩容和外推场景互斥,每次只能修改一个。

当前仅盘古-NLP-N4系列模型、盘古-NLP-N1系列模型(8K版)以及基于它们训练的模型支持外推。

图1 模型部署外推升级

扩缩容部署实例数量

扩缩容是指运行中的模型支持增加或减少模型部署的实例数。

修改部署时扩缩容和外推场景互斥,每次只能修改一个。

图2 修改部署
图3 模型部署扩缩容

相关文档