实时对比
使用场景
在AI工程化落地过程中,面对众多的基础大模型和微调版本,如何选择“最合适”的模型是关键难题。模型实时对比功能提供了一个直观的对比平台,允许用户在完全一致的输入条件下,对不同模型进行横向评测。
核心作用与价值:
- 基础大模型选型:在项目初期,对比如DeepSeek3、Qwen3、GLM4.5等不同架构模型的表现,快速锁定适合业务场景的基模。
- 微调效果验证:将“未微调的原生模型”与“微调后的模型”做同步对比,直观验证微调是否成功注入了领域知识,或是否存在能力退化。
- 参数策略调优(A/B Testing):对比同一模型在不同超参数(如Temperature, Top-P)下的输出差异,寻找最佳推理配置。
约束限制
- 模型类型限制:当前仅支持大语言模型领域的文本生成类模型对比,暂不支持其他领域模型对比。
- 数量限制:为了保证前端渲染性能及便于人眼比对,单次对比任务最多支持 3 个模型同时进行。
- 超时限制:在实时比对任务运行过程中,如果某个比对模型因为思考或者性能原因超过5分钟未结束,该模型窗口会提示超时而中断回答。
操作步骤
- 选择实时比对功能。前往ModelArts管理控制台,选择“模型评测 > 实时对比”,进入“实时对比”操作页面。如图1所示。右上角功能说明如下:
- 新对话:清空当前对话,开始一个新的对话。
- 清空对话:清空当前对话内容上下文。后续对话不受上文对话影响。
- 服务比对:开始一个对话服务,可以选择1~3个模型同时对比。
- 选择对比模型。单击右上角“服务对比”按钮,弹出“实时比对|选择服务”对话框。选择目标模型,如果已经部署的模型为目标对比模型,则选择对应的模型即可,如图2所示。如果目标模型不存在,需要先部署要对比的模型或选择对话框推荐模型“一键部署”,如图3所示。选好模型后,进入模型对话工作区,即可开启对话,如图4所示。
- 调整模型各项参数。设置不同参数,可使模型在随机性、最大生成长度等维度的输出不同。在实时比对时为保证模型对比控制变量单一,请保持模型配置参数一致。参数设置可参考模型运行参数配置。
图5 模型参数配置
- 输入问题(Prompting)。输入框中撰写您的测试提示词(Prompt)。按“Enter”键发送,按“Shift+Enter”键换行。
- 系统会将这一条Prompt同时发送给所有选中的模型。
- 支持单轮问答测试,也支持在当前上下文中进行多轮对话测试。
图6 输入测试提示词对话框
- 查看各模型的输出结果。系统将以分栏视图(Side-by-Side) 的形式,并行展示各模型的生成内容,您可以直观地通过肉眼比对文本的逻辑性、格式规范度以及语义准确性。
模型运行参数配置
在调用大模型时,经常会遇到模型回答问题和预想结果有较大差异的问题。您可以通过调整“解码参数”来控制模型生成的随机性和创造力。简单来说,这些参数决定了模型是像严谨的科学家一样回答,还是像浪漫的诗人一样创作。表1说明参数配置示例。
|
参数名 |
作用 |
示例 |
推荐调试顺序 |
|---|---|---|---|
|
Temperature |
控制整体随机性。数值越大,发散性越强;数值越小,答案越确定。
|
prompt:请用“天空”造句。
|
优先调整 |
|
Top_P |
动态截取概率最高的词。数值越大,可选词汇越丰富(但也可能越生僻)。Top_P不看数量,看累计概率。模型会按概率高低排序,把概率加起来达到P值(如0.9)的词留下来,剩下的丢掉。 |
配合Temperature微调 |
|
|
Top-K |
强制保留排名前K个词。数值越大,保留的候选词越多。 |
|
辅助参数(通常保持默认或较大值) |
以下是配置参数的典型场景,请根据使用场景配置不同参数。
|
业务场景 |
建议配置 |
期望效果 |
典型应用 |
|---|---|---|---|
|
代码生成 数学解题 |
Temp: 0.0 - 0.2 Top_P: 0.1 |
极度精确 拒绝随机性,保证代码逻辑正确,语法严谨。 |
辅助编程、SQL生成、逻辑推理 |
|
知识问答 客服 |
Temp: 0.3 - 0.5 Top_P: 0.7 |
稳定且自然 事实准确,但语言组织比机器人更像人类。 |
智能客服、RAG文档问答 |
|
文案创作 闲聊 |
Temp: 0.7 - 0.9 Top_P: 0.9 |
丰富多样 词汇量大,句式多变,富有创意。 |
营销文案、小说续写、角色扮演 |
|
头脑风暴 |
Temp: 1.0+ Top_P: 0.95 |
天马行空 跳出常规逻辑,寻找意外的灵感(需人工筛选)。 |
创意构思、起名 |
常见问题
- 问题1:推理结果比较长时,页面最长只显示1分钟内返回的内容,不能显示完整的推理结果。
解决方法:前台访问后端服务链路上的CDK、itep-manager-dispatcher默认的超时时间为1分钟,所以前台最多只能接收1分钟内的返回,需要修改CDK、itep-manager-dispatcher超时时间为300s。
- 环境管理员登陆cloudscope,进入CloudCDK页面,选择“服务升级 > icity-public-manager”。
图7 选择icity-public-manager
修改tlsTimeout环境变量值,参数设置为300。
修改dispatcherRestartTag serverRestartTag proxyRestartTag变量值,在原有基础上值进行加1。
图8 修改变量值
- 单击升级。使用承载租户登陆运营面Console,进入云容器引擎CCE页面,查找itepbase-xxx集群。
图9 查找itepbase-xxx集群
选择集群名称,进入集群详情页面,单击“配置与密钥”,查找itep-dispatcher-configmap,单击“更新”。
图10 itep-dispatcher-configmap配置项
- 单击“编辑YAML”,修改tls.timeout为300,单击“确定”。
- 环境管理员登陆cloudscope,进入CloudCDK页面,选择“服务升级 > icity-public-manager”。





