配置模型服务路由策略

通过设置路由策略，可以实现模型故障自动切换功能。当模型A因故障等原因无法正常工作时，系统会自动切换至其他可用模型，继续提供服务，从而提升模型服务的稳定性和可用性。路由策略创建完成后，可以进行调测和使用。

在“创建路由策略”页面，配置参数信息，具体参数说明请参考表1，配置完成后单击“保存”。

新建的路由策略，显示在路由策略列表中。

图2 创建路由策略

表1 路由策略参数说明
参数	说明	示例
策略名称	自定义路由策略的名称。由2~36个字符组成，包含中英文、数字、中划线（-）、下划线（_）、点（.），仅支持以中英文开头。	文本对话路由策略
AI模型	在“模型A”下拉框中选择模型服务。单击“+ AI模型”，添加模型服务。一共支持添加3个模型服务。路由策略提供模型服务时，模型调用顺序为：模型A > 模型B > 模型C，当模型A无法正常工作时，可以自动依次切换为模型B、模型C。	模型A：DeepSeek-R1 模型B：DeepSeek-V3 模型C：Qwen3-32B
策略总超时时间	模型路由策略的总体超时时间。取值范围为1000~1,000,000ms，默认值为10,000ms。	10000ms
模型重试次数	路由策略中单个模型服务的重试次数。取值范围为0-100次，默认值为0次。	0
策略描述	路由策略的描述信息。由1~100个字符组成。	该策略为文本对话类型的路由策略。

在“模型调测”区域，调测模型，具体参数说明请参考表2。

图3 调测模型

表2 模型调测参数说明
参数名称	参数说明	示例
输出方式	可选非流式、流式。非流式：调用大语言模型推理服务时，根据用户问题，获取大语言模型的回答，大语言模型完整生成回答后一次性返回。流式：调用大语言模型推理服务时，根据用户问题，获取大语言模型的回答，逐个字词的快速返回模式，不需等待大语言模型生成完成。默认流式。	流式
输出最大token数	模型在单次推理或生成内容时，能够输出的token（模型处理文本的基本单位）数量的最大值。取值范围为100~32768，默认值为2048。	2048
温度	较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定。取值范围0.01~2，默认值为0.5。建议该参数和“多样性”只设置1个。	0.5
多样性	影响输出文本的多样性，取值越大，生成文本的多样性越强。取值范围0~1，默认值为0.5。建议该参数和“温度”只设置1个。	0.5
存在惩罚	正值会尽量避免使用已出现过的词语，更倾向于生成新词语。取值范围-2.0~2.0，默认值为0。	0
频率惩罚	正值会尽量避免使用常见的单词和短语，更倾向于生成较少见的单词。取值范围-2.0~2.0，默认值为0。	0

表3 相关操作
操作	说明
查看路由策略详情	在待查看的路由策略对应的“策略名称”列下，单击路由策略名称。
修改路由策略	在待修改的路由策略对应的“操作”列下，单击“编辑”。
删除路由策略	在待删除的路由策略对应的“操作”列下，单击“删除”。

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨