更新时间:2025-08-04 GMT+08:00
分享

创建路由策略用于提供模型服务

通过配置路由策略可实现模型故障自动切换功能,当模型A因故障等原因无法正常工作时系统会自动切换至另一个可用模型提供服务,从而提升模型服务的稳定性和可用性。路由策略创建完成后可进行调测和调用。

前提条件

需要具备AI原生应用引擎管理员或开发者权限,权限申请操作请参见AppStage组织成员申请权限

创建路由策略

  1. 进入AI原生应用引擎
  2. 在AI原生应用引擎的左侧导航栏选择“模型中心 > 我的模型服务”。
  3. 在“模型服务”页面,选择“我的模型服务 > 我的路由策略 > 创建路由策略”。
  4. 在“创建路由策略”页面,参照表1配置策略信息,配置完单击“保存”

    表1 路由策略参数说明

    参数

    说明

    策略名称

    自定义路由策略的名称,支持中英文、数字、中划线(-)、下划线(_)、点(.),长度2~36个字符,仅支持中英文开头。

    AI模型

    在“模型A”下拉框中选择模型。

    单击“+ AI模型”,还可以增加2个AI模型。

    路由策略提供模型服务时,模型调用顺序为:模型A > 模型B > 模型C,当模型A无法正常工作时,可以自动依次切换为模型B、模型C。

    策略总超时时间

    模型路由策略的总体超时时间,取值范围为1000-1000000ms。

    模型重试次数

    路由策略中单个模型服务的重试次数,取值范围为0-100次。

    策略描述

    路由策略的描述信息。

  5. 在模型调测区域,参考表2调测模型。

    表2 模型调测参数说明

    参数名称

    参数说明

    输出方式

    可选非流式、流式。

    • 非流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
    • 流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,逐个字词的快速返回模式,不需等待大语言模型生成完成。

    输出最大token数

    模型在单次推理或生成内容时,能够输出的token(模型处理文本的基本单位)数量的最大值。取值范围为100~32768。

    温度

    较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和“多样性”只设置1个。

    多样性

    影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和“温度”只设置1个。

    存在惩罚

    介于-2.0和2.0之间的数字。正值会尽量避免使用已出现过的词语,更倾向于生成新词语。

    频率惩罚

    介于-2.0和2.0之间的数字。正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。

    内容安全监测配置

    开关默认开启,可对输入及返回内容中的文本和图片进行安全监测,关闭后无法对涉政、涉黄、涉暴等相关敏感问题进行过滤。

  6. 在右侧“模型效果预览”区域查看效果。

更多操作

模型路由策略创建完成后,可执行如表3所示的操作。

表3 更多操作

操作

说明

模型调测

在“我的模型服务”页签下“我的路由策略”列表中,单击操作列的“模型调测”,参照步骤3进行模型调测。

修改路由策略

在“我的模型服务”页签下“我的路由策略”列表中,单击操作列的“修改”,可以调整模型数量,编辑总超时时间、模型重试次数、描述信息。

删除路由策略

在“我的模型服务”页签下“我的路由策略”列表中,单击操作列的“删除”。

相关文档

路由策略创建完成后,用户可在Agent、工作流中调用该策略,或通过API接口调用,请参考在AI原生应用引擎中创建单Agent(自主规划模式)创建工作流以及模型调用

相关文档