模型调测是指在平台侧对模型服务进行真实调用,并结合参数调整与效果观测,验证模型在特定场景下的可用性、稳定性与效果表现的过程。通过调测,您可以在模型正式发布或接入业务流程前,提前发现并定位常见问题(如鉴权失败、接口协议不匹配、响应超时、输出不符合预期等),确保模型在真实业务场景中能够稳定、高效地运行。
本章介绍平台已接入的模型服务调测流程。目前支持调测的模型类型包括:文本对话、图像理解、文本向量化(向量模型)、文本排序。
模型调测通常用于以下场景:
- 模型接入后验证:新接入的模型服务需要先调测确认可调用,再进行发布和使用。
- 变更后的回归验证:当您更新API Key、变更API地址、调整模型名称(模型ID/编码)或切换接口协议后,建议重新调测验证。
- 效果与参数优化:针对同一类问题,通过调整参数等方式对比输出效果,选择更合适的配置。
- 问题排查定位:当智能体/工作流调用模型出现异常时,可通过调测复现问题并查看调用结果与错误信息,快速缩小排查范围。
前提条件
- 已有可调测的模型服务或路由策略,满足以下任一条件:
- 登录用户为空间所有者、空间管理员、开发工程师、运维工程师,详细信息请参考管理团队空间成员。
调测模型服务
- 登录AgentArts智能体开发平台,在左侧导航栏“个人空间”区域,选择目标空间。
- 在左侧导航栏,选择“开发中心 > 开发配置”,进入“模型调测”页签。
如需直接调测单个模型,可按以下入口操作:
- 调测预置模型(资产广场入口):在左侧导航栏,选择“资产广场”,进入“模型”页面,鼠标移动至需调测的模型卡片上,单击“模型调测”。
- 调测自定义接入模型(自定义模型入口):在左侧导航栏,选择“开发中心 > 开发配置”。进入“自定义模型”页签,进入所需调测的“供应商详情”页面,在需要调测的模型服务卡片上,单击“
> 调测”。
- 可选:在“模型调测”界面,可以调测如下几种类型的模型服务。
- 在“模型类型”区域选择“文本对话”,参数配置请参考表1。
图1 文本对话
表1 文本对话类型模型参数说明
|
参数 |
说明 |
示例 |
|
模型服务 |
“模型服务A”默认展示所选的供应商模型服务。“模型服务B”为可选项。
可通过下拉列表选择或切换以下类型的模型服务:
- 用户自主接入的模型服务:以模型供应商维度展示。
- 平台推荐:以模型供应商维度展示。
- 路由策略:用户自定义创建的路由策略。
|
DeepSeek-V3 |
|
深度思考 |
该参数仅在以下场景中显示:
- 平台推荐:所选模型为思考模型且支持关闭深度思考时显示,例如平台推荐的Qwen3-32B、DeepSeek-V3.2。
- 用户自主接入的模型服务:所选模型为思考模型,且在新建模型服务时“已开启是否支持关闭思维链输出”时显示。
该参数支持以下操作:
- 开启:大模型将先进行深入的思考和推理,通过逐步拆解问题、梳理逻辑,生成详细的思维链内容并在调试界面展示,从而提升最终输出的准确性和可靠性。
- 关闭:大模型将跳过思维链推理过程,直接生成最终答案,响应速度更快,适用于需要快速获取结果的场景。
不同模型能力下的生效情况:
- 模型能力支持思维链输出,且支持关闭:开启和关闭均生效。
- 模型能力支持思维链输出,但不支持关闭:开启生效,关闭不生效。
- 模型能力不支持思维链输出:开启和关闭均不生效。
|
开启 |
|
输出方式 |
- 流式(默认):调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,逐个字词的快速返回模式,无需等待大语言模型生成完成。
- 非流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
|
流式 |
|
输出最大token数 |
模型在单次推理或生成内容时,能够输出的token(模型处理文本的基本单位)数量的最大值。
取值范围100~32768,默认值为2048。 |
2048 |
|
温度 |
较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。
取值范围0.01~2,默认值为0.5。建议该参数和“多样性”只设置1个。 |
0.5 |
|
多样性 |
影响输出文本的多样性,取值越大,生成文本的多样性越强。
取值范围0~1,默认值为0.5。建议该参数和“温度”只设置1个。 |
0.5 |
|
存在惩罚 |
正值会尽量避免使用已出现过的词语,更倾向于生成新词语。
取值范围-2.0~2.0,默认值为0。 |
0 |
|
频率惩罚 |
正值会尽量避免使用常见的单词和短语,更倾向于生成较少见的单词。
取值范围-2.0~2.0,默认值为0。 |
0 |
- 在右侧“效果预览”区域,在对话输入框输入测试语句后按Enter键或单击
,查看模型响应结果。
单击
,清除本次会话内容,可以开始新的会话。
图2 文本对话模型调测成功
- 在“模型类型”区域选择“图像理解”,参数配置请参考表2。
图3 图像理解
表2 图像理解类型模型参数说明
|
参数 |
说明 |
示例 |
|
模型服务 |
默认展示所选的供应商模型服务。也可以在下拉列表切换以下模型服务:
- 用户自主接入的模型服务:以模型供应商维度展示。
- 平台推荐:以模型供应商维度展示。
|
Qwen2.5-VL-72B |
|
输出方式 |
- 流式(默认):调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,逐个字词的快速返回模式,无需等待大语言模型生成完成。
- 非流式:调用大语言模型推理服务时,根据用户问题,获取大语言模型的回答,大语言模型完整生成回答后一次性返回。
|
非流式 |
|
上传图片 |
单击 ,可上传本地图片。支持上传JPG、PNG格式图片,且不大于4MB。 |
- |
|
提示语内容 |
输入提示语,对图片进行提问。 |
图片里有什么? |
- 单击“生成图像理解”,在右侧“效果预览”区域查看模型响应效果。
图4 图像理解模型调测成功
- 在“模型类型”区域选择“文本向量化”,参数配置请参考表3。
图5 文本向量化
表3 文本向量化类型模型参数说明
|
参数 |
说明 |
示例 |
|
模型服务 |
默认展示所选的供应商模型服务。
您也可以在下拉列表切换以下模型服务:
- 用户自主接入的模型服务:以模型供应商维度展示。
- 平台推荐,以模型供应商维度展示。
|
BGE-M3 |
|
请输入文本 |
输入待向量化的文本,可参照以下示例:
- 示例1:那是个快乐的人
- 示例2: ["那是个快乐的人", "那是个高兴的人", "那是个忧郁的人"]
|
那是个快乐的人 |
- 单击“生成向量化”,在右侧“效果预览”区域查看模型响应效果。
图6 文本向量化调测成功
- 在“模型类型”区域选择“文本排序”,参数配置请参考表4。
图7 文本排序
表4 文本排序类型模型参数说明
|
参数名称 |
参数说明 |
示例 |
|
模型服务 |
默认展示所选的模型服务。
您也可以在下拉列表切换以下模型服务:
- 用户自主接入的模型服务:以模型供应商维度展示。
- 平台推荐,以模型供应商维度展示。
|
BGE-Reranker-V2-M3 |
|
待排序文本 |
输入待排序文本。单击 添加文本,最多可以添加10条。 |
小朋友在学校很快乐 |
|
被展示文本条数 |
文本排序完成后,展示的条数。取值范围为1~10,默认值为1。 |
3 |
|
我的问题 |
描述想要解决的问题。 |
小朋友在学校怎么样? |
- 单击“开始排序”,在右侧“效果预览”区域查看模型响应效果。
图8 文本排序调测成功
- 调测成功后,可以在智能体、工作流中使用模型服务,请参考开发单智能体应用、开发工作流应用、开发多智能体应用。