文档首页/ 语音交互服务 SIS/ 用户指南/ 配置热词表(可选)
更新时间:2024-05-10 GMT+08:00
分享

配置热词表(可选)

调用一句话识别、录音文件识别、实时语音识别API时,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。

创建热词表(1.0版本)

创建热词表有两种方式:控制台创建调用API创建。本章节主要介绍通过控制台创建的方法。

  1. 登录SIS服务控制台。
  2. 在左侧导航栏中选择“热词表配置”。并在配置页面单击“创建热词表”。

    创建成功后,可对热词表内容进行编辑。支持中英混编,最多可添加10000个热词,热词之间用逗号分隔。

    热词表支持英文和中文语言类型。中文语言类型的热词最长支持32字符,英文语言类型的热词最长支持64字符。

    前端热词创建过程中,具备热词规则校验能力,会将不符合规则的热词返回给用户。

    图1 创建热词表

    创建热词时,需注意:

    • 中文语言类型(chinese_mandarin)热词可以包含英文,但英文语言类型(english)热词不能包含中文。
    • 热词表能创建通过,仅代表规则校验通过,但是否生效还需由具体API确定(如创建中文类型热词表,请求英文语音识别接口,热词不会生效)。
    • 所有含英文的热词均需大写,如:Eiffel铁塔(正确示例为:EIFFEL铁塔)。
    • 所有数字均用相应的汉字表示,避免使用阿拉伯数字 ,如:12345服务热线(正确示例为:一二三四五服务热线)。
    • 热词内容仅包含英文和中文,避免出现标点符号、特殊字符或空格,如:。,?.*等。
    • 尽量避免配置单音节的英文单词,避免误召回,如:MAY/TEE等。

调用热词表

一句话识别、录音文件识别、实时语音识别API均支持调用热词表,调用时,需传vocabulary_id参数(热词id)。

热词id可以通过控制台,或调用查询热词表信息接口获取。

图2 热词id

热词3.0

热词3.0在热词1.0基础上,增加了自定义权重热词强制替换热词来提升特定场景关键词召回率,如下图3所示。控制台后端API均已开放热词3.0的创建接口,但需注意的是,并非所有API均能使热词3.0算法生效,具体约束条件如下。

图3 创建热词表
  • 支持的region:

    北京四、上海一

  • 支持的API:

    实时语音识别chinese_16k_general/chinese_8k_general、一句话识别chinese_16k_general和录音文件识别chinese_16k_media。

    热词3.0能创建成功并不意味着一定生效,仅对以上四个API生效。其余API请按照热词1.0的规则创建热词。

热词3.0使用场景和配置规则如下。

  • 普通热词

    用于常见的命名实体识别,如地名、景点、商品名、领域关键词。

    配置规则:

    • 最多可以创建100个热词表,每个热词表支持10000个热词
    • 所有含英文的热词均需大写,如:Eiffel铁塔(正确示例为:EIFFEL铁塔)。
    • 所有数字均用相应的汉字表示,不能使用阿拉伯数字 ,如:12345服务热线(正确示例为:一二三四五服务热线)。
    • 热词内容仅包含英文和中文,不能包含标点符号、特殊字符,如:。,?.*等。
    • 尽量避免配置单音节的英文单词,避免误召回,如:MAY/TEE等。
  • 自定义权重热词

    用于提升热词召回率,主要应用于以下场景。

    • 所配置的关键词与常见词发音一样,导致热词不能百分百生效。如雇工 vs 故宫。由于故宫更加常见,所以可能存在即使配置了雇工这个热词,也无法召回的情况。
    • 所配置的关键词含有生僻字,如葳蕤霜蟾。这些生僻字出现的概率较低,所以在热词搜索过程中,可能不生效。
    • 所配置的关键词较常见,与其他高频词容易混淆(误召回),如述职 vs 数值

    配置规则:

    • 自定义权重热词用/将热词分为两个部分,左边即为普通热词,遵循普通热词的配置规则。
    • 右边为1~10的整数(包含),数值越大热词的偏置力度越强,召回率越高(但误召回的风险越大)。
    图4 配置示例
  • 强制替换热词

    强制替换作为热词功能的补充,主要解决以下两类问题:

    • 一些极其罕见的词语,如绵绵瓜瓞,龙行龘(dá)龘,即使配置了热词,也无法识别,所以需要将谐音词进行强制替换:绵绵瓜叠=绵绵瓜瓞,龙行达达=龙行龘龘。
    • 自定义格式输出,如特殊符号γ、β、奈雪の茶,数学公式x^2+1=0。

    配置规则:

    • 强制替换重热词用=将热词分为两个部分,左边为待替换词,遵循普通热词的配置规则。
    • 等号右边为最终输出词,仅校验长度(不超过32字符)。

相关文档