评测智能分析助手
支持对智能分析助手问答问题进行细致的分析评测,评测体系涵盖了一系列关键指标,包括多轮改写、关键词改写、检索结果、提示词、语义SQL、DQE、SQL,并提供标注能力。评测智能分析助手能够快速、准确评估当前智能分析助手端到端效果、各模块效果,支撑智能分析助手快速完成效果调优迭代。本文将为您介绍如何对问答问题进行评测。
约束限制
- 使用该功能需要具备管理员的权限,权限说明请参见权限管理。
步骤一:上传评测集
- 登录智能数据洞察控制台。
- 单击管理控制台左上角的,选择区域,单击左下角的企业项目选择项目。
- 在控制台右侧“我的项目”单击项目名称,进入项目页面。
- 单击“知识管理 > 评测管理”,进入评测管理页面。
- 单击“上传评测集”,进入上传评测集页面(图1),输入评测集名称。
- 单击“模板下载”,评测集模板填写完成后后,单击“添加文件”,完成评测文件的上传。
- 选择“评测助手”后,单击“确定”,完成评测集的上传。
表1 上传评测集参数说明 参数
说明
评测集名称
对评测集进行命名。名称输入不能为空,只能包含中文、字母、数字、中划线(-)和下划线(_),长度不超过32个字符。
上传评测文件
后续的评测将基于评测文件展开,评测模板的参数说明如下:
conversationId:对话ID,例如将在智能分析助手的第一次对话和第二次对话的ID编号为1和2。
seqId:一次对话中不同问题的ID,例如将第一次对话中的问题依次编号为1,2,3......
question:一次对话中的不同问题,例如不同区域产品的销量增长百分比为?
评测助手
选择需要评测的智能分析助手。
步骤二:评测标注
- 单击“知识管理 > 评测管理”,进入评测管理页面。
- 单击“开始评测”,进入评测界面。页面左侧区域显示评测集关联的智能分析助手,即在步骤一中选择的“评测助手”。页面上方显示评测结果的准确率,准确率=1-错误/总步骤数。
- 在对话列表区域对评测集中的每个问题进行评测标注,参数说明请参见表2。
- 对话列表区域左侧展示不同的对话,与评测集模板中的conversationId对应,某一对话中的问题标注完成后,单击“确认”,完成该次对话的评测标注(图2)。
表2 评测标注参数说明 参数
说明
多轮改写
用户处于多轮对话模式中时,模型会根据用户的历史问题和本轮输入问题,对本轮问题进行改写。
关键词改写
用户可以在助手中进行问答关键字的配置。在多轮改写后,会检测问题是否包含用户所定义的问答关键字。当包含时,会将问题中的关键字替换为用户所配置的替换内容。
检索结果
问答助手会根据用户查询检索相关的数据表和其中相关的字段以及枚举值。相比于直接输入所有的数据集schema和枚举值信息,检索步骤能够精简给模型的输入,提升NL2SQL模型效果并降低推理的时延。
提示词
基于提示词模板,综合用户的指令、检索结果等信息,为每个用户查询动态生成对应的提示词。
语义SQL
大模型根据提示词,进行NL2SQL任务的推理,生成语义SQL。值得注意的是,语义SQL是基于数据集Schema所生成的,并不是一个可直接执行的物理SQL。
DQE
语义SQL会被转换成数据检索表达式(Data Query Expression, DQE)。相比于SQL,DQE是一个更结构化的数据结构体,是DataArts Insight系统中的通用数据查询结构体。在转换的过程中,语义SQL会被进行后处理,以校验、修正其中的幻觉和错误,提升整个数据查询的准确率。
SQL
DQE将会被进一步转换为目标数据源可执行的物理SQL。转换的过程主要包括建立数据集Schema到物理表Schema的映射,目标数据源方言的适配,默认过滤条件和权限管控条件的注入等。