更新时间:2026-02-14 GMT+08:00
分享

实时对比

使用场景

在AI工程化落地过程中,面对众多的基础大模型和微调版本,如何选择“最合适”的模型是关键难题。模型实时对比功能提供了一个直观的对比平台,允许用户在完全一致的输入条件下,对不同模型进行横向评测。

核心作用与价值:

  • 基础大模型选型:在项目初期,对比如DeepSeek3、Qwen3、GLM4.5等不同架构模型的表现,快速锁定适合业务场景的基模。
  • 微调效果验证:将“未微调的原生模型”与“微调后的模型”做同步对比,直观验证微调是否成功注入了领域知识,或是否存在能力退化。
  • 参数策略调优(A/B Testing):对比同一模型在不同超参数(如Temperature, Top-P)下的输出差异,寻找最佳推理配置。

约束限制

  1. 模型类型限制:当前仅支持大语言模型领域的文本生成类模型对比,暂不支持其他领域模型对比。
  2. 数量限制:为了保证前端渲染性能及便于人眼比对,单次对比任务最多支持 3 个模型同时进行。
  3. 超时限制:在实时比对任务运行过程中,如果某个比对模型因为思考或者性能原因超过5分钟未结束,该模型窗口会提示超时而中断回答。

操作步骤

  1. 选择实时比对功能。前往ModelArts管理控制台,选择“模型评测 > 实时对比”,进入“实时对比”操作页面。如图1所示。右上角功能说明如下:
    • 新对话:清空当前对话,开始一个新的对话。
    • 清空对话:清空当前对话内容上下文。后续对话不受上文对话影响。
    • 服务比对:开始一个对话服务,可以选择1~3个模型同时对比。
      图1 实时比对
  2. 选择对比模型。单击右上角“服务对比”按钮,弹出“实时比对|选择服务”对话框。选择目标模型,如果已经部署的模型为目标对比模型,则选择对应的模型即可,如图2所示。如果目标模型不存在,需要先部署要对比的模型或选择对话框推荐模型“一键部署”,如图3所示。选好模型后,进入模型对话工作区,即可开启对话,如图4所示。
    图2 选择目标模型
    图3 无目标模型
    图4 选好模型后的对话工作区
  3. 调整模型各项参数。设置不同参数,可使模型在随机性、最大生成长度等维度的输出不同。在实时比对时为保证模型对比控制变量单一,请保持模型配置参数一致。参数设置可参考模型运行参数配置
    图5 模型参数配置
  4. 输入问题(Prompting)。输入框中撰写您的测试提示词(Prompt)。按“Enter”键发送,按“Shift+Enter”键换行。
    • 系统会将这一条Prompt同时发送给所有选中的模型。
    • 支持单轮问答测试,也支持在当前上下文中进行多轮对话测试。
      图6 输入测试提示词对话框
  5. 查看各模型的输出结果。系统将以分栏视图(Side-by-Side) 的形式,并行展示各模型的生成内容,您可以直观地通过肉眼比对文本的逻辑性、格式规范度以及语义准确性。

模型运行参数配置

在调用大模型时,经常会遇到模型回答问题和预想结果有较大差异的问题。您可以通过调整“解码参数”来控制模型生成的随机性和创造力。简单来说,这些参数决定了模型是像严谨的科学家一样回答,还是像浪漫的诗人一样创作。表1说明参数配置示例。

表1 模型核心参数

参数名

作用

示例

推荐调试顺序

Temperature

控制整体随机性。数值越大,发散性越强;数值越小,答案越确定。

  • 低温度 (0.1):模型极其保守,总是选择概率最高的那个选项。适合标准答案明确的场景。
  • 高温度 (0.9):模型变得兴奋,愿意尝试概率较低的选项。适合需要创意的场景,但容易一本正经地胡说八道(幻觉)

prompt:请用“天空”造句。

  • Temperature = 0.1 (严谨)
    • 结果天空是蓝色的,飘着几朵白云。
    • 特点准确、平淡、每次运行结果几乎一样。
  • Temperature = 0.9 (发散)
    • 结果天空宛如一块被打翻的蓝莓果酱,星辰在其中沉浮。
    • 特点生动、多变、每次运行结果差异大。

优先调整

Top_P

动态截取概率最高的词。数值越大,可选词汇越丰富(但也可能越生僻)。Top_P不看数量,看累计概率。模型会按概率高低排序,把概率加起来达到P值(如0.9)的词留下来,剩下的丢掉。

  • Top_P = 0.1:只取最头部、最稳的几个词。
  • Top_P = 0.9:允许更多长尾词汇进入候选池,词汇更丰富。

    Top_P是动态的。如果下一组词都很确定,候选池就小;如果下一组词都很模糊,候选池就大。这比Top-K更智能。

配合Temperature微调

Top-K

强制保留排名前K个词。数值越大,保留的候选词越多。

  • Top-K = 1:贪婪解码,每次只选第1名(效果等同于极低温度)。
  • Top-K = 50:主要用于防止模型生成极低概率的乱码。

辅助参数(通常保持默认或较大值)

以下是配置参数的典型场景,请根据使用场景配置不同参数。

表2 模型参数配置典型场景

业务场景

建议配置

期望效果

典型应用

代码生成

数学解题

Temp: 0.0 - 0.2

Top_P: 0.1

极度精确

拒绝随机性,保证代码逻辑正确,语法严谨。

辅助编程、SQL生成、逻辑推理

知识问答

客服

Temp: 0.3 - 0.5

Top_P: 0.7

稳定且自然

事实准确,但语言组织比机器人更像人类。

智能客服、RAG文档问答

文案创作

闲聊

Temp: 0.7 - 0.9

Top_P: 0.9

丰富多样

词汇量大,句式多变,富有创意。

营销文案、小说续写、角色扮演

头脑风暴

Temp: 1.0+

Top_P: 0.95

天马行空

跳出常规逻辑,寻找意外的灵感(需人工筛选)。

创意构思、起名

常见问题

  1. 问题1:推理结果比较长时,页面最长只显示1分钟内返回的内容,不能显示完整的推理结果。

    解决方法:前台访问后端服务链路上的CDK、itep-manager-dispatcher默认的超时时间为1分钟,所以前台最多只能接收1分钟内的返回,需要修改CDK、itep-manager-dispatcher超时时间为300s。

    • 环境管理员登陆cloudscope,进入CloudCDK页面,选择“服务升级 > icity-public-manager”。
      图7 选择icity-public-manager

      修改tlsTimeout环境变量值,参数设置为300。

      修改dispatcherRestartTag serverRestartTag proxyRestartTag变量值,在原有基础上值进行加1。

      图8 修改变量值
    • 单击升级。使用承载租户登陆运营面Console,进入云容器引擎CCE页面,查找itepbase-xxx集群。
      图9 查找itepbase-xxx集群

      选择集群名称,进入集群详情页面,单击“配置与密钥”,查找itep-dispatcher-configmap,单击“更新”。

      图10 itep-dispatcher-configmap配置项
    • 单击“编辑YAML”,修改tls.timeout为300,单击“确定”。

    • 进入“工作负载”页面,找到“itep-manager-dispatcher”,重启itep-manager-dispatcher服务。

相关文档