实时对比

使用场景

在AI工程化落地过程中，面对众多的基础大模型和微调版本，如何选择“最合适”的模型是关键难题。模型实时对比功能提供了一个直观的对比平台，允许用户在完全一致的输入条件下，对不同模型进行横向评测。

核心作用与价值：

基础大模型选型：在项目初期，对比如DeepSeek3、Qwen3、GLM4.5等不同架构模型的表现，快速锁定适合业务场景的基模。
微调效果验证：将“未微调的原生模型”与“微调后的模型”做同步对比，直观验证微调是否成功注入了领域知识，或是否存在能力退化。
参数策略调优（A/B Testing）：对比同一模型在不同超参数（如Temperature、Top-P）下的输出差异，寻找最佳推理配置。

约束限制

区域使用限制：仅“西南-贵阳一”区域的新版控制台支持。
模型类型限制：当前仅支持大语言模型领域的文本生成类模型对比，暂不支持其他领域模型对比。
数量限制：为了保证前端渲染性能及便于人眼比对，单次对比任务最多支持 3 个模型同时进行。
超时限制：在实时比对任务运行过程中，如果某个比对模型因为思考或者性能原因超过5分钟未结束，该模型窗口会提示超时而中断回答。

操作步骤

选择实时比对功能。前往ModelArts管理控制台，选择“模型评测 > 实时对比”，进入“实时比对”操作页面。如图1所示。右上角功能说明如下：
- 新对话：清空当前对话，开始一个新的对话。
- 清空对话：清空当前对话内容上下文。后续对话不受上文对话影响。
- 服务比对：开始一个对话服务，可以选择1~3个模型对比。
  图1 实时比对
  实时对比有多个入口，除了从控制台左侧直接选择外，也可通过如下入口进入：
  1. 在ModelArts管理控制台“模型推理 > 在线推理”的服务列表页，单击右侧操作列的“实时比对”，进入“实时比对”页面。
    或在“模型推理 > 在线推理”的服务列表页单击服务名称，进入服务详情页，单击右上角的“实时比对”，进入“实时比对”页面。
选择对比模型。单击右上角“服务对比”按钮，弹出“实时比对|选择服务”对话框。选择目标模型，如果已经部署的模型为目标对比模型，则选择对应的模型即可，如图2所示。如果目标模型不存在，需要先部署要对比的模型或选择对话框推荐模型“一键部署”，如图3所示。一键部署可参考推理入门：一键完成Qwen3-32B模型部署完成模型部署。选好模型后，进入模型对话工作区，即可开启对话，如图4所示。
图2 选择目标模型

 图3 无目标模型

 图4 选好模型后的对话工作区
调整模型各项参数。设置不同参数，可使模型输出在随机性、最大生成长度等维度的输出不同。在实时比对时为保证模型对比控制变量单一，请保持模型配置参数一致。参数设置可参考模型运行参数配置。
图5 模型参数配置

如果对比模型支持深度思考模式，可以打开深度思考开关。模型在给出答案前，会将深度思考结果打印在对话框。如图6所示。

图6 模型深度思考过程
输入问题。输入框中撰写您的测试提示词（Prompt）。按“Enter”键发送，按“Shift+Enter”键换行。
- 系统会将这一条Prompt同时发送给所有选中的模型。
- 支持单轮问答测试，也支持在当前上下文中进行多轮对话测试。
  图7 输入测试提示词对话框
查看各模型的输出结果。系统将以分栏视图（Side-by-Side）的形式，并行展示各模型的生成内容，您可以直观地通过肉眼比对文本的逻辑性、格式规范度以及语义准确性。如图8所示。
图8 大模型输出结果比对
切换模型服务。如果在模型对比过程中需要切换不同模型。可在模型对话框中选择新模型，即可切换模型。

指标说明

除了主观的文本内容比对外，您还可以通过结果面板上的数据标签查看技术指标，以辅助量化评估。具体指标可以参考表1。

表1 模型指标
指标类型	指标名称	指标说明
性能指标	总耗时	完成整个回答所需的总时间。耗时越短，说明模型输出的性能越强。
	思考时间	针对思考模型
	首字延迟 (TTFT-Time To First Token)	从用户单击“发送”按钮开始，到屏幕上出现AI回复的“第一个字（Token）”所花费的时间。TTFT越低代表模型响应速度越快。
	每个Token耗时（TPOT-Time Per Output Token）	当第一个字出来后，后续输出字符出现时，平均生成每个字需要的时间。TPOT越低代表模型后续输出越快，越流畅。
消耗指标	消耗Token	显示本次问答的Input Tokens（输入量）和Output Tokens（输出量），用于预估调用成本。

模型运行参数配置

在调用大模型时，经常会遇到模型回答问题和预想结果有较大差异的问题。您可以通过调整“解码参数”来控制模型生成的随机性和创造力。简单来说，这些参数决定了模型是像严谨的科学家一样回答，还是像浪漫的诗人一样创作。表2说明参数配置示例。

表2 模型核心参数
参数名	作用	示例	推荐调试顺序
Temperature	控制整体随机性。数值越大，发散性越强；数值越小，答案越确定。低温度 (0.1)：模型极其保守，总是选择概率最高的那个选项。适合标准答案明确的场景。高温度 (0.9)：模型变得兴奋，愿意尝试概率较低的选项。适合需要创意的场景，但容易一本正经地胡说八道（幻觉）	prompt：请用“天空”造句。 Temperature = 0.1 (严谨) 结果：天空是蓝色的，飘着几朵白云。特点：准确、平淡、每次运行结果几乎一样。 Temperature = 0.9 (发散) 结果：天空宛如一块被打翻的蓝莓果酱，星辰在其中沉浮。特点：生动、多变、每次运行结果差异大。	优先调整
Top_P	动态截取概率最高的词。数值越大，可选词汇越丰富（但也可能越生僻）。Top_P不看数量，看累计概率。模型会按概率高低排序，把概率加起来达到P值（如0.9）的词留下来，剩下的丢掉。	Top_P = 0.1：只取最头部、最稳的几个词。 Top_P = 0.9：允许更多长尾词汇进入候选池，词汇更丰富。 Top_P是动态的。如果下一组词都很确定，候选池就小；如果下一组词都很模糊，候选池就大。这比Top-K更智能。	配合Temperature微调
Top-K	强制保留排名前K个词。数值越大，保留的候选词越多。	Top-K = 1：贪婪解码，每次只选第1名（效果等同于极低温度）。 Top-K = 50：主要用于防止模型生成极低概率的乱码。	辅助参数（通常保持默认或较大值）

以下是配置参数的典型场景，请根据使用场景配置不同参数。

表3 模型参数配置典型场景
业务场景	建议配置	期望效果	典型应用
代码生成数学解题	Temp: 0.0 - 0.2 Top_P: 0.1	极度精确拒绝随机性，保证代码逻辑正确，语法严谨。	辅助编程、SQL生成、逻辑推理
知识问答客服	Temp: 0.3 - 0.5 Top_P: 0.7	稳定且自然事实准确，但语言组织比机器人更像人类。	智能客服、RAG文档问答
文案创作闲聊	Temp: 0.7 - 0.9 Top_P: 0.9	丰富多样词汇量大，句式多变，富有创意。	营销文案、小说续写、角色扮演
头脑风暴	Temp: 1.0+ Top_P: 0.95	天马行空跳出常规逻辑，寻找意外的灵感（需人工筛选）。	创意构思、起名