使用推理服务进行推理

部署完推理服务之后，用户可以在试验场选择已有的推理服务进行推理，也可以调用API进行推理，具体请参考API文档（API链接到API参考）。下面是使用试验场进行推理的步骤：

（可选）参数调节。

如果需要调节推理的一些参数，可以单击高级配置来调节推理的max_tokens等参数。参数说明如下：

表1 推理参数说明
名称	说明
max_tokens	要在聊天完成中生成的最大token数。不同公共推理服务支持的最大max_tokens不一样，具体参考公共推理服务介绍。
temperature	Temperature是用于调整随机程度的数字。介于0和2之间。较高的值（如0.8）将使输出更随机，而较低的值（如0.2）将使输出更集中和确定性。
top_p	核心采样，用于控制AI模型根据累积概率考虑的标记范围。
frequency_penalty	数字介于-2.0和2.0之间。频率惩罚，控制文本中词汇的重复度，避免生成文本中某些词汇或短语出现过于频繁。正值会根据它们在文本中的现有频率惩罚新令牌，从而降低模型逐字重复同一行的可能性。
presence_penalty	数字介于-2.0和2.0之间。存在惩罚，控制文本中话题的重复度，避免在对话或文本中反复讨论相同的主题或观点。正值会根据到目前为止它们是否出现在文本中来惩罚新令牌，从而增加模型谈论新主题的可能性。