创建路由策略用于提供模型服务
通过配置路由策略,可以实现模型故障自动切换能力,当模型A因故障等原因无法正常工作时,可以自动切换为另一个可用的模型提供服务,从而提高模型服务的稳定性和可用性。
路由策略创建完成后,可以进行模型调测,并支持在创建Agent时使用或通过模型调用接口调用。
前提条件
需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限。
创建路由策略
- 在AI原生应用引擎的左侧导航栏选择“模型中心 > 我的模型服务”,单击“创建路由策略”。
- 在“创建路由策略”页面,参照表1配置策略信息,配置完单击“保存”。
- 在模型调测区域,参考表2调测模型。
表2 模型调测参数说明 参数名称
参数说明
输出方式
可选非流式、流式。二者区别如下:
- 非流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
- 流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,逐个字词的快速返回模式,不需等待大语言模型生成完成。
输出最大token数
表示模型输出的最大长度。
温度
较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和“多样性”(top_p)只设置1个。
多样性
影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和“温度”(temperature)只设置1个。
存在惩罚
介于-2.0和2.0之间的数字。正值会尽量避免重复已经使用过的词语,更倾向于生成新词语。
频率惩罚
介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。
- 在右侧“模型效果预览”区域查看效果。
更多操作
模型路由策略创建完成后,可执行如表3所示的操作。