对话机器人服务 CBS 对话机器人服务 CBS

更新时间:2021/07/27 GMT+08:00
分享

知识库管理

当您创建好智能问答机器人后,您需要在知识库中创建问答数据、标注数据、对数据进行模型训练及诊断等操作。

知识库功能入口:进入对话机器人服务管理控制台,在左侧菜单栏中选择“智能问答机器人”。在机器人列表中,选择“专业版”机器人,单击机器人ID或者“机器人管理”按钮。在“问答机器人”页面,左侧导航栏选择“知识库”

知识库用于管理问题的类别和所有的问答对,主要包含如下功能:

问答管理

问答管理用于管理问题的类别和所有的问答对。每个问题都有自己所属的问题类别,一个完整的问答对包括问题、扩展问及答案。

  • 问题类别

    问题类别用于区分问题的分类,可更好的管理不同场景、领域的问题。例如问候类、咨询类、故障处理类等。最多可以创建1000个问题类别。

    系统预置了无效问题的类别,可以将用户经常问到,但与您的业务不相关的问题置于无效问题分类中。无效问题不会进行相似问的推荐。运营数据中,无效问题将单独统计,不计入命中问题的数据中。

    您也可以使用共享知识库中的问题。该类别问题是由其他机器人共享给本机器人的,不能编辑,只能控制生效或失效,默认都是失效。

    “问答管理”页面,问题类别管理在左侧区域。问题类别管理区域可进行如下操作:
    • 新建问题类别:单击可新建类别。
    • 删除问题类别:选中已有问题类别,单击可删除此类别。
    • 编辑问题类别:选中已有问题类别,单击编辑类别,仅支持修改问题类别名称。
    • 刷新问题类别列表:单击可刷新本列表。
    • 查找问题类别:在搜索文本框中,输入问题类别名称的关键字,然后单击可查找相关问题类别。
    • 拖动问题类别:按住问题类别可进行拖拽,支持拖拽至同级或者不同级位置。
    • 添加子级类别:鼠标悬浮在某一类别时,单击类别名称右侧的可新建子级类别。
  • 问题管理

    您可以新建、编辑、删除问题,操作皆为及时生效无需训练和等待。支持批量的导入、导出,以及变更类别。也可以根据时间和问题关键字来筛选搜索问题。

    • 新建问题
      图1 新建知识
      • 问题类别:从下拉框中选择已有的问题类别。可对已创建的类别进行搜索,如无可用问题类别可选,请新建问题类别。
      • 问题:用户的问题,输入长度不能超过512个字符。
      • 扩展问:问题的相似问法,即用户在表达该问题时,会使用到的其他说法。添加扩展问有助于提升问答效果。单击图标添加扩展问,扩展问问句输入长度不能超过512个字符,最多支持输入200个扩展问。
      • 问题规则:通过问题规则以匹配更多问题。“*” 代表字符省略,“|”代表或。

        例如:设置规则“*[查一下|查询|查看]上海的天气* ”,当输入“帮我查一下上海的天气”或者“帮我查询上海的天气”可以匹配到对应答案。

      • 答案:问题对应的答案。答案支持富文本格式,包括字体、图片、源码等的编辑功能,单个答案输入长度不能超过32767字符。

        答案可以通过设置标签进行区分,使用户依据不同标签接收到不同的答案。详细的标签设置方法请参见标签管理

        上传图片操作步骤:
        1. 在输入框中,单击图片按钮,弹出“上传图片”对话框。
          图2 上传图片
        2. 选择您需要的上传方式。

          本地上传:如果您选择本地上传,需要执行步骤3和步骤4

          网络上传:如果您选择网络上传,输入对应的图片链接,单击“确定”

        3. 选择OBS桶。

          上传的文件,需保存在OBS桶的文件夹内,为保证图片正常显示请确保所选OBS的访问权限为公共读权限。

        4. 选择OBS桶中的文件,单击“确定”
  • 批量操作语料

    您可以批量变更类别或者删除语料。

  • 导出问答语料

    您可以通过右上角按钮,导出需要的问答语料到OBS桶中。

  • 导入问答语料
    1. “问答管理”页面,单击“导入”
    2. 在导入页面,配置相关信息,然后单击“确定”

      文件选择:选择需要导入的语料文件。每次只能选择一个文件导入。如果不清楚数据格式,建议单击“下载模板”,获取语料模板。

    3. 语料导入成功后,所有语料信息将呈现在问题列表中。
  • 编辑知识

    针对已有语料,当业务发生变更时,需要对已有的语料进行编辑。支持对语料的问题类别、问题、答案进行修改。

    1. “问答管理”页面,单击语料所在行“操作”列的“编辑”
    2. 在编辑知识页面,您可以根据实际情况修改问题类别、问题、答案、扩展问。
    3. 信息修改完成后,单击“确定”保存。
  • 删除语料

    当业务发生变更时,某些语料已失效。您可以删除单个或批量删除语料,以释放资源。语料删除后无法恢复,请谨慎操作。

    • 单个删除:在“问答管理”页面,单击语料所在行“操作”列的“删除”
    • 批量删除:在“问答管理”页面,勾选待删除语料,可以是多个,然后选择语料列表上方的批量操作 > 删除
  • 共享知识库

    共享知识库列表中可查看到被共享的问题类别,通过单独或批量的启用、停用操作,可控制该类知识是否在线上生效。

数据标注

数据标注是指标记问答机器人中用户问与问题的匹配关系,用于模型训练,使得问答效果更佳。数据标注需要依赖于知识库,标注过程中的问题来自知识库中问题。

用户问是指用户在使用问答机器人时问的问题,一般通过日志收集而来。问题则是指知识库保存的问题,代表的是问答机器人使用的知识库中问题的问题法。数据标注主要用于模型训练,通过训练,能让模型学习到用户问和问题之间的匹配关系。因此,用户问与问题是否匹配是需要用户自己标注的。

  • 新建数据
    1. “数据标注”页面,单击“新建”
    2. “新建数据标注”页面,输入相关信息,然后单击“确定”
      • 用户问:从用户的日志中获取到的用户真实问题,且知识库数据中,问题或扩展问中不存在的问题。请手工输入,问题长度不能超过512个字符。
      • 问题:此处问题不可手工设置,而是在知识库中查找对应的语料。选择语料之后,此处显示语料的问题。
      • 问答语料:从已有的知识库中选择。

        您可以在输入框中输入问题关键字,然后单击查找语料,找到对应的语料之后,勾选此语料。此时,问题将显示此语料中的问题。

      图3 新建标注数据
    3. 新建的数据标注将显示在数据标注列表中,且“是否匹配”列的数值为“是”
  • 导入数据
    1. “问答机器人”页面,在左侧导航栏选择“数据标注”
    2. “数据标注”页面,单击“导入”
    3. “导入”页面,输入相关信息,然后单击“确定”
      • 文件选择:选择需要导入的数据标注文件。每次只能选择一个文件导入。如果不清楚数据格式,建议单击“下载模板”,获取数据标注模板。
      • 导入模式:支持“覆盖”“追加”模式。如果选择覆盖,则导入的数据直接会覆盖之前已创建或导入的数据标注信息。如果选择追加,导入的数据标注信息不会覆盖原始数据,此时可能存在重复的标注信息,系统允许有重复数据标注数据存在。
      图4 导入数据
    4. 数据标注的信息导入后,所有信息将呈现在数据标注列表中,且每一行数据的“是否匹配”列的数值为“否”,您需要标注数据后再进行模型训练。
  • 标注数据

    对于导入的数据,需要人工进行标注后,再用于模型训练。针对已标注过的数据,也可更改标注信息。

    标注数据列表页面,根据实际业务情况,在“是否匹配”列设置其数值,“是”表示此用户问与问题同义,反之设置为“否”

  • 编辑数据

    针对已有的标注数据,您也可以修改其内容,再进行标注操作。

    1. “问答机器人”页面,在左侧导航栏选择“数据标注”
    2. “数据标注”页面,在“操作”列单击“编辑”
    3. “编辑数据标注”页面,您可以更改用户问或者对应的问题,然后单击“确定”
    4. 编辑完成后,最新的内容将呈现标注数据列表中,建议您重新对“是否匹配”的参数值进行标注。
  • 删除数据

    当标注数据不再有效时,您可以删除数据以避免影响模型训练效果。

    • 批量删除:在标注数据列表中,勾选需删除的数据,可以是多个。然后单击“删除”
    • 单个删除:针对需要删除的数据,在其“操作”列,单击“删除”,删除单个标注数据。

模型训练

为了让问答机器人更加智能,回答更加准确,您可以在问答机器人管理中通过训练模型来提升问答机器人的效果。为保证模型效果,创建模型前请保证标注的数据不少于50条。

  • 新建模型
    1. 在模型管理页面中,单击“新建”,弹出提示框。
    2. 单击“确定”,模型将在后台启动训练。模型的状态可以在历史版本列表中查看。
  • 调整阈值

    训练好的模型可以通过调整阈值,影响机器人直接回答的准确率。阈值越高,机器人越严谨,对用户问的泛化能力越弱,识别准确率越高;阈值越低,机器人越开放,对用户问的泛化能力越强,识别准确率越低。

    当重排序结果排序第一的得分,大于该阈值时,机器人会直接回复答案;低于该阈值时,机器人会推荐问题让用户澄清。

    针对历史版本的模型,可以根据当前模型调节直接返回答案的阈值。

    1. “模型管理”页面,对应历史版本中,单击“调整阈值”
    2. 如下图所示,您可以根据实际需求,选择一个合适的阈值,然后单击“确定”
      图5 调整阈值
  • 上线模型

    创建好的模型,需要发布上线,才能生效。发布指定模型后,会替代当前的线上模型版本。

    1. 在模型管理页面,对需要上线的版本,单击“上线”
    2. “上线模型”对话框中,确认模型信息后,单击“确定”上线模型。
  • 删除模型

    如果某一模型版本已不再使用,您可以删除模型以清除冗余信息。

    在模型管理页面,单击模型对应的操作列的“删除”,删除对应的模型。删除模型不影响知识库和词典等内容。

问答诊断

当问答机器人上线运营期间,用户在问答过程中出现问题时,您可以使用用户问在问题调试页面,查看分词情况、排序情况、闲聊答复等,基于调试结果,对已有的知识库、词典、数据标注或模型进行优化。

  1. 单击“问答诊断”进入处理页面。
  2. 输入“用户问”“问题类别”,单击“Debug”

    其中“问题类别”可以设置多个,最多设置10个,也可以不设置问题类别进行诊断。

  3. 界面显示“分词结果”“短语匹配”“初筛结果”“重排序结果”“闲聊结果”的匹配结果。
    图6 问答诊断
    表1 问答诊断参数说明

    参数名称

    参数说明

    分词结果

    显示用户问的分词结果,即分词后的有效词语。

    短语匹配

    当用户问的分词结果与知识库中语料的问题或扩展问分词结果一致时,显示该问题的具体信息。

    说明:

    只需与分词结果中的词语一致,不区分词语顺序。请参见 短语匹配示例了解详情。

    初筛结果

    根据用户问,使用自研搜索引擎,搜索知识库中的问题及扩展问,并按相似得分降序展示搜索结果。

    重排序结果

    根据初筛结果,计算用户问和知识库中的问题及扩展问的语义相似度,并根据相似度得分重新排序,按得分倒序展示结果。

    说明:

    “score”的范围为0~1。请参见 初筛结果和重排序结果对比示例了解初筛结果和重排序结果的不同。

    闲聊结果

    当重排序结果的最高相似度得分低于一定阈值时,系统会根据预置的闲聊问答语料进行匹配,并展示匹配到的闲聊问题及答案。

    请参见 闲聊结果示例了解详情。

    • 短语匹配示例
      此示例中,分词结果与问题完全匹配,此时将显示此问题的语料ID、问题、扩展问、以及答案等信息。
      图7 分词结果完全匹配
    • 初筛结果和重排序结果对比示例
      此示例中,初筛结果排序最高的得分为13.297,重排序结果排序最高的得分为0.842,从匹配出的语料可以看出,重排序匹配后的内容与用户问的匹配度更高。
      图8 初筛结果和重排序结果对比
    • 闲聊结果示例
      此示例中,咨询“你叫什么”,从知识库中匹配出的答案,其得分全部低于0.65,此时将返回闲聊结果的答案给客户。
      图9 闲聊匹配结果
分享:

    相关文档

    相关产品