查看评估任务详情

模型训练完成后，可以通过一系列的评估方法来衡量模型的性能。当前支持基于规则打分，即基于相似度/准确率进行打分，对比模型预测结果与标注数据的差异，从而计算模型指标。支持的模型指标请参见下表。

表1 规则打分指标

指标名称	说明
BLEU-1	模型生成句子与实际句子在单字层面的匹配度，数值越高，表明模型性能越好。
BLEU-2	模型生成句子与实际句子在中词组层面的匹配度，数值越高，表明模型性能越好。
BLEU-4	模型生成结果和实际句子的加权平均精确率，数值越高，表明模型性能越好。
困惑度	用来衡量大语言模型预测一个语言样本的能力，数值越低，准确率也就越高，表明模型性能越好。

指标适用的任务场景
任务答案是相对比较确定的，例如固定答案的问答任务、NL2SQL、NL2JSON、文本分类等。
指标不适用的任务场景
文案创作、聊天等符合要求即可的场景，该类场景的创作型更强，不存在唯一答案。
指标与模型能力的关系
BLEU指标用于评估模型生成句子（candidate）与实际句子（reference）差异的指标。取值范围在0.0到1.0之间，值越高说明模型生成和实际答案匹配度越高。

可以作为模型能力的参考指标，当两个模型进行比较时，BLEU指标越大的模型效果一般更好。但是模型的能力还是需要通过人工评测来评判，BLEU指标只能作为参考。
指标的缺陷
BLEU指标只考虑n-gram词的重叠度，不考虑句子的结构和语义。

如何基于指标的分值对训练任务进行调整：一般横向比较两个模型时，可以参考该指标。然而，指标没有一个明确的阈值来指示何时模型效果差。因此，单靠该指标无法直接决定任务的调整策略。

如果指标低是由于提示词（prompt）设置不合理，可以通过在模型训练阶段扩大训练集和验证集来优化模型，从而改善评估结果。另外，还可以将评估数据集设计得更接近训练集的数据，以提升评估结果的准确性。

父主题： 评估盘古大模型

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

7*24