更新时间:2024-11-11 GMT+08:00
分享

接入模型服务

支持通过API接入模型服务,模型服务接入后,可以进行模型调测,并支持在创建Agent时使用或通过模型调用接口调用。

前提条件

需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限

创建接入模型服务

  1. 在AI原生应用引擎的左侧导航栏选择“模型中心 > 我的模型服务”,单击“接入模型服务”。
  2. 在“创建接入模型服务”页面,参照表1配置模型信息。

    表1 模型信息参数说明

    参数名称

    参数说明

    模型名称

    自定义模型名称。支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2-36个字符,仅支持以中英文开头。

    模型类型

    可选模型类型包括:文本对话、文本向量化、文本排序。

    模型参数量

    模型参数的数量。计量单位B,表示Billion,即十亿。

    上下文长度

    “模型类型”选择“文本对话”时,需配置此参数。

    对话文本输入和输出的总长度。

    模型描述(可选)

    自定义模型相关描述信息。

    服务名称

    自定义服务名称。支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2-36个字符,仅支持以中英文开头。

    模型服务描述(可选)

    自定义模型服务相关描述信息。

    标签(可选)

    用来描述或标记模型的关键词或短语,帮助用户快速地找到相关的模型信息或资源。

  3. 配置模型服务API配置相关参数,参数说明如表2所示。

    表2 模型服务API配置参数说明

    参数名称

    参数说明

    URL(POST)

    模型服务的URL,当前仅支持https协议,例如:appstage.huaweicloud.com/v1/xxx。

    鉴权方式

    • 无鉴权
    • Api-key:Api-key认证方式,通过请求header的Authentication字段携带Bearer <Api-key> 进行认证,需要提供Api-key。
    • AK/SK:适用于盘古大模型的AK/SK认证方式,通过AK( Access Key ID) /SK(Secret Access Key)加密调用请求,需要提供AK和SK。
    • App-code:APP认证方式,通过请求header的X-Apig-Appcode字段携带App-code进行认证,需要提供App-code。

    API key

    鉴权方式为“Api-key”时,配置此参数。

    API密钥所需的字段,以及该验证所必须的字段值。

    说明:
    • 请通过API提供者或模型供应商获取API Key。
    • 输入的关键信息将进行加密保存,仅用于模型服务的调用。如果API Key发生变化,更新此处信息后,设置将于2分钟后生效。

    AK/SK

    鉴权方式为“AK/SK”时,配置此参数。

    AK:访问密钥Id。

    SK:密钥。

    说明:
    • 请通过API提供者或模型供应商获取AK/SK。
    • 输入的关键信息将进行加密保存,仅用于模型服务的调用。

    App code

    鉴权方式为“App-code”时,配置此参数。

    说明:
    • 请通过API提供者或模型供应商获取App code。
    • 输入的关键信息将进行加密保存,仅用于模型服务的调用。如果APP code发生变化,更新此处信息后,设置将于2分钟后生效。

    API接口协议

    • 标准OpenAI协议
    • 盘古大模型协议

    流控配置

    超出流控值,则触发限流,用户的请求会因为流控而失败。

    • 无限制
    • 10次/秒
    • 50次/秒
    • 100次/秒
    • 200次/秒

  4. 单击“保存”,在模型调测区域调测模型。

    • 调测文本对话类型模型,请参考表3配置参数。
      表3 文本对话类型模型调测参数说明

      参数名称

      参数说明

      输出方式

      可选非流式、流式。二者区别如下:

      • 非流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
      • 流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,逐个字词的快速返回模式,不需等待大语言模型生成完成。

      输出最大token数

      简称max_tokens,表示模型输出的最大长度。

      温度

      简称temperature,较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和“多样性”(top_p)只设置1个。

      多样性

      简称top_p,影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和“温度”(temperature)只设置1个。

      存在惩罚

      简称presence_penalty:介于-2.0和2.0之间的数字。正值会尽量避免重复已经使用过的词语,更倾向于生成新词语。

      频率惩罚

      简称frequency_penalty,介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。

    • 调测文本向量化类型模型
      1. 请输入文本,可参照以下示例输入文本。
        • 示例1:那是个快乐的人
        • 示例2: ["那是个快乐的人", "那是个高兴的人", "那是个忧郁的人"]
      2. 单击“生成向量化”。
    • 调测文本排序类型模型
      1. 配置表4所示参数。
        表4 调测文本排序类型模型参数说明

        参数名称

        参数说明

        待排序文本

        输入待排序文本。单击添加文本,最多可以添加10条。

        被展示文本条数

        文本排序完成后,展示的条数。取值范围为1~10。

        我的问题

        输入想要解决的问题,例如:请按时间顺序排序。

      2. 单击“开始排序”。

  5. 在右侧“模型效果预览”区域查看效果。
  6. 单击“发布”,模型服务发布成功。

管理我接入的模型服务

模型服务发布完成后,可执行如下表5所示的管理模型服务相关操作。

表5 管理我接入的模型服务

操作

说明

取消发布模型服务

在模型列表“操作”列单击“取消发布”。

模型调测

  1. 在“我接入的”页签的服务列表中,单击“操作”列“模型调测”。
  2. 参照调测模型的步骤,完成模型测试。

修改模型服务

在“我接入的”页签的服务列表中,选择“操作”列的“更多 > 修改”。

删除模型服务

  1. 在模型列表“操作”列选择“更多 > 删除”。
  2. 单击“确认”。

相关文档