更新时间:2024-08-15 GMT+08:00
分享

配置和使用OpenSearch集群的自定义词库

前提条件

已经准备好集群和自定义词库,且词库文件已上传至OBS桶。
  • 集群和词库文件满足约束限制
  • 上传的OBS桶必须和集群在相同“区域”。上传文件至OBS桶的操作步骤请参见上传文件

配置自定义词库

  1. 登录云搜索服务管理控制台。
  2. 在左侧导航栏,选择对应的集群类型,进入集群列表页面。
  3. “集群管理”页面,单击需要配置自定义词库的集群名称,进入集群基本信息页面。
  4. 选择“自定义词库”
  5. “自定义词库”页面,配置集群的自定义词库或修改预置词库。
    1. 当需要配置用户自定义的词库时,参考表1完成配置。
      表1 配置自定义词库

      参数

      说明

      OBS桶

      选择词库文件存储的OBS位置。

      单击“创建桶”可以跳转到创建桶页面新建OBS桶,新建OBS桶必须和集群在相同“区域”,且“默认存储类别”只支持“标准存储”或“低频访问存储”。

      主词词库

      主词词库是用户自定义的词库,初始状态为空。默认选择“不更新”表示不配置该词库。

      • 当需要添加自定义的主词词库时,单击“更新”,选择txt格式的词库文件。
      • 当无需添加自定义的主词词库时,单击“不使用此词库”,删除词库。

      停词词库

      停词词库是用户自定义的词库,初始状态为空。默认选择“不更新”表示不配置该词库。

      • 当需要添加自定义的停词词库时,单击“更新”,选择txt格式的词库文件。
      • 当无需添加自定义的停词词库时,单击“不使用此词库”,删除词库。

      同义词词库

      同义词词库是用户自定义的词库,初始状态为空。默认选择“不更新”表示不配置该词库。

      • 当需要添加自定义的同义词词库时,单击“更新”,选择txt格式的词库文件。
      • 当无需添加自定义的同义词词库时,单击“不使用此词库”,删除词库。
    2. 当需要修改预置词库时,单击打开“修改预置词库”右侧的开关,修改对应的预置词库。

      如果界面不存在静态词库和Extra词库这4个词库时,表示该集群版本不支持删除或修改这4个预置词库。如果想要使用该功能,建议升级集群版本,或者新建集群并进行数据迁移。

      表2 配置预置词库

      参数

      说明

      静态主词词库

      静态主词词库是预置的常用词语的主词库。默认选择“不更新”表示使用该预置词库。

      • 当需要修改预置的静态主词词库时,单击“更新”,选择txt格式的词库文件。
      • 当不使用静态主词库时,单击“不使用此词库”,删除词库。

      静态停词词库

      静态停词词库是预置的常用词语的停词库。默认选择“不更新”表示使用该预置词库。

      • 当需要修改预置的静态停词词库时,单击“更新”,选择txt格式的词库文件。
      • 当不使用静态停词库时,单击“不使用此词库”,删除词库。

      Extra主词词库

      Extra主词词库是预置的生僻词语的主词库。默认选择“不更新”表示使用该预置词库。

      • 当需要修改预置的Extra主词词库时,单击“更新”,选择txt格式的词库文件。
      • 当不使用Extra主词库时,单击“不使用此词库”,删除词库。

      Extra停词词库

      Extra停词词库是预置的生僻词语的Extra停词库。默认选择“不更新”表示使用该预置词库。

      • 当需要修改预置的Extra停词词库时,单击“更新”,选择txt格式的词库文件。
      • 当不使用Extra停词库时,单击“不使用此词库”,删除词库。
  6. 单击“保存”,在弹窗中单击“确定”。词库信息在下方呈现,此时词库状态为“更新中”。请耐心等待1分钟左右,当词库配置完成后,词库状态变更为“成功”
  7. 当删除或更新静态词库和Extra词库这4个词库时,需要重启集群才能使配置的词库生效;其他词库的更新为动态更新,无需重启集群。重启集群的操作指导请参见重启Elasticsearch集群

使用示例

通过给集群配置自定义词库,将“智能手机”设置为主词,“是”设置为停词,“开心”“高兴”设置为同义词。使用配置好的集群,对文本内容“智能手机是很好用”进行关键词搜索,查看关键词查询效果;对文本内容“我今天获奖了我很开心”进行同义词搜索,查看同义词查询效果。

  1. 配置自定义词库,并查看分词效果。当预置词库即可满足分词需求时,可以跳过此步骤。

    1. 准备词库文件(UTF-8无BOM格式编码的文本文件),上传到对应OBS路径下。

      主词词库文件中包含词语“智能手机”;停词词库文件中包含词语“是”;同义词词库文件中包含一组同义词“开心”“高兴”

      由于系统预置的静态停词词库包含了“是”“的”等常用词,如果集群未删除或更新预置词库,则此类停用词可以不用上传。

    2. 参考配置自定义词库,完成词库配置。
    3. 待词库配置信息生效后,返回集群列表。单击集群操作列的“Kibana”接入集群。
    4. 在Kibana界面,单击左侧导航栏的“Dev Tools”,进入操作页面。
    5. 执行如下命令,查看自定义词库的ik_smart分词策略ik_max_word分词策略的分词效果。
      • 使用ik_smart分词策略对文本内容“智能手机是很好用”进行分词。
        示例代码:
        POST /_analyze
        {
          "analyzer":"ik_smart",
          "text":"智能手机是很好用"
        }

        运行结束后,查看分词效果:

        {
          "tokens": [
            {
              "token": "智能手机",
              "start_offset": 0,
              "end_offset": 4,
              "type": "CN_WORD",
              "position": 0
            },
            {
              "token": "很好用",
              "start_offset": 5,
              "end_offset": 8,
              "type": "CN_WORD",
              "position": 1
            }
          ]
        }
      • 使用ik_max_word分词策略对文本内容“智能手机是很好用”进行分词。

        示例代码:

        POST /_analyze
        {
          "analyzer":"ik_max_word",
          "text":"智能手机是很好用"
        }

        运行结束后,查看分词效果:

        {
          "tokens" : [
            {
              "token" : "智能手机",
              "start_offset" : 0,
              "end_offset" : 4,
              "type" : "CN_WORD",
              "position" : 0
            },
            {
              "token" : "智能",
              "start_offset" : 0,
              "end_offset" : 2,
              "type" : "CN_WORD",
              "position" : 1
            },
            {
              "token" : "智",
              "start_offset" : 0,
              "end_offset" : 1,
              "type" : "CN_WORD",
              "position" : 2
            },
            {
              "token" : "能手",
              "start_offset" : 1,
              "end_offset" : 3,
              "type" : "CN_WORD",
              "position" : 3
            },
            {
              "token" : "手机",
              "start_offset" : 2,
              "end_offset" : 4,
              "type" : "CN_WORD",
              "position" : 4
            },
            {
              "token" : "机",
              "start_offset" : 3,
              "end_offset" : 4,
              "type" : "CN_WORD",
              "position" : 5
            },
            {
              "token" : "很好用",
              "start_offset" : 5,
              "end_offset" : 8,
              "type" : "CN_WORD",
              "position" : 6
            },
            {
              "token" : "很好",
              "start_offset" : 5,
              "end_offset" : 7,
              "type" : "CN_WORD",
              "position" : 7
            },
            {
              "token" : "好用",
              "start_offset" : 6,
              "end_offset" : 8,
              "type" : "CN_WORD",
              "position" : 8
            },
            {
              "token" : "用",
              "start_offset" : 7,
              "end_offset" : 8,
              "type" : "CN_WORD",
              "position" : 9
            }
          ]
        }

  2. 创建索引并配置分词策略,导入数据后使用关键词搜索数据

    Elasticsearch 7.x之前的版本和之后的版本,操作命令有差别,所以分开举例。

  3. 创建索引并配置同义词策略,导入数据后使用同义词搜索数据

    Elasticsearch 7.x之前的版本和之后的版本,操作命令有差别,所以分开举例。

相关文档