更新时间:2024-12-31 GMT+08:00
分享

使用推理服务进行推理

部署完推理服务之后,用户可以在试验场选择已有的推理服务进行推理,也可以调用API进行推理,具体请参考API文档(API链接到API参考)。下面是使用试验场进行推理的步骤:

前提条件

  • 已有可正常使用的华为云账号。
  • 已有至少一个正常可用的工作空间。
  • 已创建推理服务。

操作步骤

  1. 登录Fabric工作空间管理台
  2. 选择已创建的工作空间,单击“进入工作空间”,在左侧导航栏选择“开发与生产 > 试验场”
  3. 单击“试验场”,进入“试验场”页面,进行推理。

    图1 选择公共推理服务进行推理

  4. (可选)参数调节。

    如果需要调节推理的一些参数,可以单击高级配置来调节推理的max_tokens等参数。参数说明如下:
    表1 推理参数说明

    名称

    说明

    max_tokens

    要在聊天完成中生成的最大token数。不同公共推理服务支持的最大max_tokens不一样,具体参考公共推理服务介绍。

    temperature

    Temperature是用于调整随机程度的数字。介于0和2之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使输出更集中和确定性。

    top_p

    核心采样,用于控制AI模型根据累积概率考虑的标记范围。

    frequency_penalty

    数字介于-2.0和2.0之间。频率惩罚,控制文本中词汇的重复度,避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌,从而降低模型逐字重复同一行的可能性。

    presence_penalty

    数字介于-2.0和2.0之间。存在惩罚,控制文本中话题的重复度,避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌,从而增加模型谈论新主题的可能性。

    图2 配置推理参数

  5. (可选)多个推理对比。

    如果需要对比多个推理服务时,可以单击右上角的“新增对比”按钮进行新增,最多支持3个推理服务进行对比。
    图3 对比

相关文档