评测智能分析助手
支持对智能分析助手问答问题进行细致的分析评测,评测体系涵盖了一系列关键指标,并配备了标注功能,以确保评估的准确性和全面性。此外,针对在评测过程中发现的不准确问答,DataArts Insight引入了BadCase管理机制,BadCase能够高效地追踪并记录被标注为错误的问答问题,方便后续的问题处理和改进工作。
评测智能分析助手能够快速、准确评估当前智能分析助手各模块效果,并追踪准确率不高的问答问题,支撑智能分析助手快速完成效果调优迭代。本文将为您介绍如何对问答问题进行有效的评测。
约束限制
- 使用该功能需要具备管理员的权限,权限说明请参见权限管理。
操作流程

步骤 |
说明 |
---|---|
上传的评测集中包含询问智能分析助手的问题,后续的测评将基于这些问题展开。 |
|
评测标注能够快速、准确评估当前智能分析助手端到端效果以及各模块效果。 |
|
在同一评测集下选择两个智能分析助手进行评测标注,用于对比不同助手之间的问答准确率,进而有针对性地优化助手配置。 |
|
BadCase可以有效跟踪评测标注过程中标注为错误的问题,方便后续的问题处理和改进工作。 |
步骤一:上传评测集
- 登录智能数据洞察控制台。
- 单击管理控制台左上角的
,选择区域,单击左下角的企业项目选择项目。
- 在控制台右侧“我的项目”单击项目名称,进入项目页面。
- 单击“知识管理 > 评测管理”,进入评测管理页面。
- 单击“上传评测集”,进入上传评测集页面(图2),输入评测集名称。
- 单击“模板下载”,评测集模板填写完成后,单击“添加文件”,完成评测文件的上传。
- 选择“评测助手”后,单击“确定”,完成评测集的上传。
表2 上传评测集参数说明 参数
说明
评测集名称
对评测集进行命名。名称输入不能为空,只能包含中文、字母、数字、中划线(-)和下划线(_),长度不超过32个字符。
上传评测文件
后续的评测将基于评测文件展开,评测模板的参数说明如下:
conversationId:对话ID,例如将在智能分析助手的第一次对话和第二次对话的ID编号为1和2。
seqId:一次对话中不同问题的ID,例如将第一次对话中的问题依次编号为1,2,3......
question:一次对话中的不同问题,例如不同区域产品的销量增长百分比为?
评测助手
选择需要评测的智能分析助手,最多选择两个智能分析助手。
步骤二:评测标注
- 单击“知识管理 > 评测管理”,进入评测管理页面。
- 单击“评测集名称”,进入评测界面。页面左侧区域显示评测集关联的智能分析助手,即在步骤一中选择的“评测助手”。页面上方显示评测结果的准确率,准确率=1-错误/总步骤数。
- 在对话列表区域对评测集中的每个问题进行评测标注,参数说明请参见表3。
- 对话列表区域左侧展示不同的对话,与评测集模板中的conversationId对应,某一对话中的问题标注完成后,单击“确认”,完成该次对话的评测标注(图3)。
评测标注为错误的问题将自动更新至BadCase管理,用于后续跟踪问题的改进情况。
表3 评测标注参数说明 参数
说明
多轮改写
用户处于多轮对话模式中时,模型会根据用户的历史问题和本轮输入问题,对本轮问题进行改写。
关键词改写
用户可以在助手中进行问答关键字的配置。在多轮改写后,会检测问题是否包含用户所定义的问答关键字。当包含时,会将问题中的关键字替换为用户所配置的替换内容。
检索结果
问答助手会根据用户查询检索相关的数据表和其中相关的字段以及枚举值。相比于直接输入所有的数据集schema和枚举值信息,检索步骤能够精简给模型的输入,提升NL2SQL模型效果并降低推理的时延。
提示词
基于提示词模板,综合用户的指令、检索结果等信息,为每个用户查询动态生成对应的提示词。
语义SQL
大模型根据提示词,进行NL2SQL任务的推理,生成语义SQL。值得注意的是,语义SQL是基于数据集Schema所生成的,并不是一个可直接执行的物理SQL。
DQE
语义SQL会被转换成数据检索表达式(Data Query Expression, DQE)。相比于SQL,DQE是一个更结构化的数据结构体,是DataArts Insight系统中的通用数据查询结构体。在转换的过程中,语义SQL会被进行后处理,以校验、修正其中的幻觉和错误,提升整个数据查询的准确率。
SQL
DQE将会被进一步转换为目标数据源可执行的物理SQL。转换的过程主要包括建立数据集Schema到物理表Schema的映射,目标数据源方言的适配,默认过滤条件和权限管控条件的注入等。
步骤三:对比评测结果(可选)
在同一评测集下选择两个智能分析助手进行评测标注,用于对比不同助手之间的问答准确率,进而有针对性地优化助手配置。
- 单击“知识管理 > 评测管理”,进入评测管理页面。
- 单击“上传评测集”,评测助手选择需要对比的两个智能分析助手,参数设置完成后单击“确定”。
- 单击“评测集名称”,进入评测界面。在对话列表区域对评测集中的每个问题进行评测标注,参数说明请参见表3。
图4 评测标注
评测标注为错误的问题将自动更新至BadCase管理,用于后续跟踪问题的改进情况。
步骤四:管理BadCase
BadCase可以有效跟踪评测标注过程中标注为错误的问题,方便后续的问题处理和改进工作。
- 单击“知识管理 > BadCase管理”,进入BadCase管理页面。该页面提供BadCase查询功能,同时支持按照问题、阶段、智能分析助手、责任人、等维度进行筛选,也支持按照修改时间维度进行排序。
图5 BadCase管理
BadCase管理以解析过程的不同阶段(多轮改写、关键词改写、检索结果、提示词、语义SQL、DQE、SQL)为颗粒度展示测标注过程中标注为错误的问题。
- 单击“查看详情”,进入BadCase的详情页面,支持修改BadCase状态、当前责任人。修改完成后单击“确定”进行保存。
图6 BadCase详情
表4 BadCase参数说明 参数
说明
阶段
智能分析助手解析过程阶段,包括多轮改写、关键词改写、检索结果、提示词、语义SQL、DQE、SQL。
智能分析助手
BadCase关联的智能分析助手,即评测标注过程中关联的智能分析助手。
责任人
处理BadCase的责任人。
标注人
评测标注BadCase的用户。
最近修改时间
BadCase最后一次被更新的时间。
状态
已创建:默认状态为“已创建”,表示BadCase已被记录并初步识别。
修改中:表示BadCase目前正在接受审核或正在进行修改。
CCB:表示BadCase已被提交至变更控制委员会(CCB)进行审议,目前处于待定状态。
挂起:表示BadCase因某些原因暂时搁置,等待后续的进一步处理。
已完成:表示BadCase已经经过处理,问题已得到解决或已采取了必要的措施。
非问题:表示经过进一步分析,原先标记为BadCase的问题实际上并非真正的问题。
- BadCase状态仅能按照顺序更新至下一阶段,不允许修改至之前的阶段,例如不能将BadCase的状态由“已完成”修改成“挂起”。