配置和使用OpenSearch集群的自定义词库

前提条件

确认已准备好自定义词库文件，且已上传至OBS桶。OBS桶必须和CSS集群位于同一“区域”，且“存储类别”为“标准存储”。

配置自定义词库

登录云搜索服务管理控制台。
在左侧导航栏，选择“集群管理 > OpenSearch”。
在集群列表，单击目标集群名称，进入集群详情页。
选择“集群配置 > 自定义词库”。

在“自定义词库”页面，配置集群的自定义词库或修改预置词库。

当需要配置用户自定义词库时，参考表1完成配置。

表1 配置自定义词库
参数	说明
OBS桶	选择词库文件存储的OBS位置。如果没有合适的OBS桶，可以单击“创建桶”跳转到OBS控制台创建OBS桶。具体操作请参见创建桶。如果是IAM子账号，需要同时设置GetBucketStoragePolicy、GetBucketLocation、ListBucket、ListAllMyBuckets权限，才能看到OBS桶。
主词词库	主词词库是用户自定义的词库，初始状态为空。默认选择“不更新”表示不配置该词库。当需要添加自定义的主词词库时，单击“更新”，选择txt格式的词库文件。当无需添加自定义的主词词库时，单击“不使用此词库”，删除词库。
停词词库	停词词库是用户自定义的词库，初始状态为空。默认选择“不更新”表示不配置该词库。当需要添加自定义的停词词库时，单击“更新”，选择txt格式的词库文件。当无需添加自定义的停词词库时，单击“不使用此词库”，删除词库。
同义词词库	同义词词库是用户自定义的词库，初始状态为空。默认选择“不更新”表示不配置该词库。当需要添加自定义的同义词词库时，单击“更新”，选择txt格式的词库文件。当无需添加自定义的同义词词库时，单击“不使用此词库”，删除词库。

当需要修改预置词库时，单击打开“修改预置词库”右侧的开关，修改对应的预置词库。

如果界面不存在静态词库、Extra词库这4个词库时，表示该集群版本不支持删除或修改这4个预置词库。如果想要使用该功能，建议升级集群版本，或者新建集群并进行数据迁移。

表2 配置预置词库
参数	说明
静态主词词库	静态主词词库是预置的常用词语的主词库。默认选择“不更新”表示使用该预置词库。当需要修改预置的静态主词词库时，单击“更新”，选择txt格式的词库文件。当不使用静态主词库时，单击“不使用此词库”，删除词库。
静态停词词库	静态停词词库是预置的常用词语的停词库。默认选择“不更新”表示使用该预置词库。当需要修改预置的静态停词词库时，单击“更新”，选择txt格式的词库文件。当不使用静态停词库时，单击“不使用此词库”，删除词库。
Extra主词词库	Extra主词词库是预置的生僻词语的主词库。默认选择“不更新”表示使用该预置词库。当需要修改预置的Extra主词词库时，单击“更新”，选择txt格式的词库文件。当不使用Extra主词库时，单击“不使用此词库”，删除词库。
Extra停词词库	Extra停词词库是预置的生僻词语的Extra停词库。默认选择“不更新”表示使用该预置词库。当需要修改预置的Extra停词词库时，单击“更新”，选择txt格式的词库文件。当不使用Extra停词库时，单击“不使用此词库”，删除词库。

单击“保存”，在弹窗中单击“确定”。词库信息在下方呈现，此时词库状态为“更新中”。请耐心等待1分钟左右，当词库配置完成后，词库状态变更为“成功”。
当删除或更新静态词库这2个词库时，需要重启集群才能使配置的词库生效；其他词库的更新为动态更新，无需重启集群。重启集群的操作指导请参见重启集群。

使用示例

通过给集群配置自定义词库，将“智能手机”设置为主词，“是”设置为停词，“开心”和“高兴”设置为同义词。使用配置好的集群，对文本内容“智能手机是很好用”进行关键词搜索，查看关键词查询效果；对文本内容“我今天获奖了我很开心”进行同义词搜索，查看同义词查询效果。

配置自定义词库，并查看分词效果。当预置词库即可满足分词需求时，可以跳过此步骤。

准备词库文件（UTF-8无BOM格式编码的文本文件），上传到对应OBS路径下。
主词词库文件中包含词语“智能手机”；停词词库文件中包含词语“是”；同义词词库文件中包含一组同义词“开心”和“高兴”。

由于系统预置的静态停词词库包含了“是”、“的”等常用词，如果集群未删除或更新预置词库，则此类停词可以不用上传。
参考配置自定义词库，完成词库配置。
待词库配置信息生效后，返回集群列表。单击集群操作列的“Dashboards”接入集群。
在OpenSearch Dashboards界面，单击左侧导航栏的“Dev Tools”，进入操作页面。

执行如下命令，查看自定义词库的ik_smart分词策略和ik_max_word分词策略的分词效果。

使用ik_smart分词策略对文本内容“智能手机是很好用”进行分词。

示例代码：

POST /_analyze
{
  "analyzer":"ik_smart",
  "text":"智能手机是很好用"
}

运行结束后，查看分词效果：

{
  "tokens": [
    {
      "token": "智能手机",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "很好用",
      "start_offset": 5,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}

使用ik_max_word分词策略对文本内容“智能手机是很好用”进行分词。

示例代码：

POST /_analyze
{
  "analyzer":"ik_max_word",
  "text":"智能手机是很好用"
}

运行结束后，查看分词效果：

{
  "tokens" : [
    {
      "token" : "智能手机",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "智能",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "智",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "能手",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "手机",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "机",
      "start_offset" : 3,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "很好用",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "很好",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "好用",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 8
    },
    {
      "token" : "用",
      "start_offset" : 7,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 9
    }
  ]
}

创建索引并配置分词策略，导入数据后使用关键词搜索数据。

代码示例如下所示：

创建索引“book”，配置分词策略。

示例中“analyzer”和“search_analyzer”可以根据实际需要“ik_max_word”或“ik_smart”分词策略，此处以“ik_max_word”为例。

PUT /book
{
    "settings": {
        "number_of_shards": 2,
        "number_of_replicas": 1
    },
    "mappings": {
        "properties": {
            "content": {
                "type": "text",
                "analyzer": "ik_max_word",
                "search_analyzer": "ik_max_word"
            }
        }
    }
}

导入数据，将文本信息导入“book”索引中。

PUT /book/_doc/1 
{ 
  "content":"智能手机是很好用" 
}

使用关键词“智能手机”进行文本搜索，并查看搜索结果。

GET /book/_doc/_search
{
  "query": {
    "match": {
      "content": "智能手机"
    }
  }
}

搜索结果：

{
  "took" : 16,
  "timed_out" : false,
  "_shards" : {
    "total" : 2,
    "successful" : 2,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.7260926,
    "hits" : [
      {
        "_index" : "book",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.7260926,
        "_source" : {
          "content" : "智能手机是很好用"
        }
      }
    ]
  }
}

创建索引并配置同义词策略，导入数据后使用同义词搜索数据。

代码示例如下所示：

创建索引“myindex”，配置分词策略。

PUT myindex
{
    "settings": {
        "analysis": {
            "filter": {
                "my_synonym": {
                    "type": "dynamic_synonym"
                }
            },
            "analyzer": {
                "ik_synonym": {
                    "filter": [
                        "my_synonym"
                    ],
                    "type": "custom",
                    "tokenizer": "ik_smart"
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "desc": {
                "type": "text",
                "analyzer": "ik_synonym"
            }
        }
    }
}

导入数据，将文本信息导入“myindex”索引中。

PUT /myindex/_doc/1
{
    "desc": "我今天获奖了我很开心"
}

使用同义词“高兴”进行文本搜索，并查看搜索结果。

GET /myindex/_search
{
  "query": {
    "match": {
      "desc": "高兴"
    }
  }
}

搜索结果：

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.1519955,
    "hits" : [
      {
        "_index" : "myindex",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.1519955,
        "_source" : {
          "desc" : "我今天获奖了我很开心"
        }
      }
    ]
  }
}

父主题： 配置自定义词库

上一篇：OpenSearch集群词库介绍

下一篇：配置简繁体转换搜索