示例：快速完成一次智能体评估

本场景以“科学知识问答”为例，演示如何通过AgentArts平台完成智能体的在线评估与调优。

该场景旨在解决智能体上线前可能存在的幻觉、答非所问等问题，通过量化评估确保服务质量。主要流程包括：

构建智能体：创建“科学知识问答”，配置包含人设、任务描述及约束条件的提示词，并发布版本以开启调用链数据采集。
配置在线评估：基于智能体产生的真实调用链数据，创建在线评估任务，并选用“正确性”和“幻觉检查”评估器进行打分。
分析与优化：查看评估报告，定位BadCase，根据分析结果优化提示词，最后进行回归测试验证效果。

步骤一：创建智能体

登录AgentArts智能体开发平台。
在左侧导航栏中选择“开发中心 > 智能体管理”，在“单智能体”页签，单击“创建单智能体”。

图1 创建单智能体
填写名称和描述为“科学知识问答”后，单击“立即创建”。

在智能体编辑页面，在提示词输入框中按照以下内容设置提示词。

## 人设  
- **角色**：科学问题解答智能体  
- **特长**：  
  - 精通自然科学（物理、化学、生物学等）与工程技术领域的基础理论与前沿进展。  
  - 擅长将复杂科学概念简化为通俗易懂的语言。  
  - 严格基于实证数据和权威文献提供答案，拒绝主观臆测。  

## 任务描述  
- **目标**：针对用户提出的科学问题，提供准确、清晰且逻辑严谨的解答，帮助用户理解核心原理或解决实际问题。  
- **影响**：  
  - 消除科学信息差，提升用户认知效率。  
  - 为学术研究、教育或决策提供可靠参考。  

## 约束条件  
1. **内容边界**：  
   - 仅回答科学领域内可验证的问题，不涉及哲学、占卜等非实证领域。  
   - 若问题超出当前科学认知范围（如未解之谜），需明确说明研究现状。  
2. **要求**：  
   - 答案需包含理论依据、数据来源（如论文、教科书）及必要的图表/公式（以Markdown格式呈现）。  
   - 字数限制：简明问题≤300字，复杂问题可分段扩展，但需标注重点。  
   - 按〈输出格式〉结构化呈现。  

## 执行步骤  
1. **问题解析**：识别用户问题的学科分类及核心需求（如概念解释、计算推导等）。  
2. **资料检索**：调用权威数据库（如PubMed、arXiv）或教科书内容，筛选匹配度高的信息。  
3. **逻辑整合**：  
   - 分层次组织答案（背景→原理→应用/案例）。  
   - 标注关键术语定义（如“熵增定律”）。  
4. **验证与简化**：  
   - 交叉验证不同来源的结论一致性。  
   - 用类比或示意图辅助说明（如“电流类似水流”）。  
5. **输出审核**：检查术语准确性、逻辑连贯性及无歧义表述。  

## 输出格式  
```markdown  
### 问题重述  
[用1句话概括用户提问]  

### 核心解答  
1. **关键结论**：[直接回答，不超过2句]  
2. **原理说明**：  
   - [分点阐述理论/机制，必要时用公式（如`E=mc²`）]  
   - 数据来源：[引用文献或实验，格式：作者(年份)]  
3. **应用示例**（可选）：[实际场景或相关研究案例]

在预览与调试区域中对其进行测试，以确保其符合预期。测试完成后，单击右上角“提交版本”进行发布。

在提交版本的弹框中，输入版本名称和描述，并开启调用链的开关。
图2 调试智能体

图3 提交版本

开启调用链开关是后续进行在线评估的前提条件，用于采集智能体运行时的Trace数据进行评估。

步骤二：选择评估器

智能体准备好后，下一步是决策如何对智能体进行打分、用什么标准打分。在AgentArts中，这个角色由评估器担任。

模型判定的评估器本质上是一个带有评分Prompt的大模型裁判，它接收特定的输入参数，输出一个分数和评分理由。平台预置了多种模型判定评估器，覆盖正确性、创意性、幻觉现象等多种维度，详细介绍请参考预置评估器。

选择建议：评估器并非越多越好，需根据评估目的进行选择。如果是第一次体验评估流程，建议使用预置评估器以快速跑通全流程。

本示例策略：在“科学知识问答”场景下，核心痛点是防止AI胡编乱造，因此推荐使用“正确性+幻觉检查”评估器组合

图4 查看预置评估器
点击放大

步骤三：创建在线评估任务

在线评估执行时，将根据配置的采样策略采集科学知识问答智能体产生的调用链数据。

在左侧导航栏中选择“运营运维 > 评估”，在“评估任务”页签单击“创建评估任务”。
选择“任务类型”为“在线评估”。
填写评估任务名称和描述，可填写为“科学知识问答智能体评估”。

图5 设置评估任务基础信息
选择评估对象为步骤一：创建智能体中创建的智能体，评估粒度选择为“调用链”。

图6 选择评估对象和评估粒度
配置采样策略，设置筛选条件为“请求状态”属于“成功”的调用链数据，并设置采样数据总上限和时间范围。

图7 配置采样策略
选择平台精选的正确性和幻觉现象评估器。

图8 选择评估器
评估任务配置完成后，单击“发起任务”。

任务执行后，会展示出当前任务正在运行中。等待任务运行“成功”后即可步骤五：分析评估报告。

设置的采样范围和采样数据上限任一条件到达后将触发评估任务开始执行。

步骤四：使用API调用单智能体

使用工具按照《API参考》文档构造调用单智能体应用接口请求url、header。
图9 配置url和header
配置请求体，配置完成后发送请求，获取响应结果。
图10 发送请求

步骤五：分析评估报告

等待评估任务状态变更为“成功”后，单击操作列“详情”，可查看详细的评估过程数据，以及得分、得分理由。单击“评估报告”可查看统计图表。针对本示例中的“科学知识问答”，建议参考以下阶段进行分析：

查看整体表现：通过总体得分和各维度评分数据，了解当前智能体的整体服务水平。
示例分析：如果整体“正确性”得分较高，但“幻觉现象”得分较低（表明存在严重的幻觉问题），说明智能体在回答用户时存在严重的编造风险（例如编造不存在的科学知识内容），这是科学知识问答场景中必须优先解决的问题。

图11 查看评估报告
抓BadCase：在“详情”数据和报告明细中，查看得分异常的数据，重点阅读评分理由。并将智能体的实际回复与标准答案进行比对，从而明确回答偏差，为后续优化提供依据。
图12 查看评估详情
人工标注与校准：虽然自动化评估效率较高，但可能存在误判。AgentArts提供了“标注评估结果”功能，支持您对评估结果进行人工干预和校准：
- 人工改分（修正评判）：如果您认为评估器的打分过于严苛或存在误判，可以直接修改该条数据的评估得分。修改后的分数将作为“真值”保存，使统计数据更加准确。
- 打标签：您可以为分析过的正例、BadCase打上自定义标签（例如：Prompt指令弱、业务规则缺失、API提参错误）。这不仅方便团队协作分发Bug，更能让您在下次迭代时，针对性地提取某一类标签的数据进行专项复测。
图13 人工校准评分

图14 给评估结果添加标签
优化智能体：根据Badcase的失败原因采取针对性优化：
- 场景一：知识幻觉与事实编造
  - 现象：用户询问“量子纠缠的超光速原理”，智能体给出了看似逻辑自洽但科学上完全错误的解释，或编造了不存在的虚假理论。
  - 优化：在提示词中补充强约束规则：对于不确定的科学问题，必须直接回复“当前暂未收录该信息”，严禁根据模型内部知识编造答案。
- 场景二：工具调用参数提取失败
  - 现象：用户提问“请查询苯的分子式”，智能体虽然识别到了查询意图，但未能正确从用户问题中提取“苯”作为参数调用化学查询工具，导致查询结果为空或报错。
  - 优化：检查并完善化学查询工具的描述信息，明确指导大模型：“调用此工具需提供准确的‘化学物质名称’作为核心参数”。
回归测试：完成对智能体的修改后，重新创建一个在线评估任务。通过前后两次报告的得分对比，验证改进方案是否有效（例如，“幻觉现象”得分是否提升）。