使用推理服务进行推理
部署完推理服务之后,用户可以在试验场选择已有的推理服务进行推理,也可以调用API进行推理,具体请参考API文档(API链接到API参考)。下面是使用试验场进行推理的步骤:
前提条件
- 已有可正常使用的华为云账号。
- 已有至少一个正常可用的工作空间。
- 已创建推理服务。
操作步骤
- 登录Fabric工作空间管理台。
- 选择已创建的工作空间,单击“进入工作空间”,在左侧导航栏选择“开发与生产 > 试验场”。
- 单击“试验场”,进入“试验场”页面,进行推理。
图1 选择公共推理服务进行推理
- (可选)参数调节。
如果需要调节推理的一些参数,可以单击高级配置来调节推理的max_tokens等参数。参数说明如下:
表1 推理参数说明 名称
说明
max_tokens
要在聊天完成中生成的最大token数。不同公共推理服务支持的最大max_tokens不一样,具体参考公共推理服务介绍。
temperature
Temperature是用于调整随机程度的数字。介于0和2之间。较高的值(如0.8)将使输出更随机,而较低的值(如0.2)将使输出更集中和确定性。
top_p
核心采样,用于控制AI模型根据累积概率考虑的标记范围。
frequency_penalty
数字介于-2.0和2.0之间。频率惩罚,控制文本中词汇的重复度,避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌,从而降低模型逐字重复同一行的可能性。
presence_penalty
数字介于-2.0和2.0之间。存在惩罚,控制文本中话题的重复度,避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌,从而增加模型谈论新主题的可能性。
图2 配置推理参数
- (可选)多个推理对比。
如果需要对比多个推理服务时,可以单击右上角的“新增对比”按钮进行新增,最多支持3个推理服务进行对比。图3 对比