elasticsearch IK分词器-天翼云

elasticsearch IK分词器

2024-04-25 14:12:25 阅读次数：42

说明：es默认的分词器对中文的识别不是特别好，一段话的分词是一个一个汉字，这显然没有达到想要的结果。

elasticsearch IK分词器

可以安装IK分词器，兼容中文的分词；

IK分词器

安装

安装IK分词器，例如elasticsearch的容器名为es；

（命令方式，安装速度慢，网络状况不好非常容易失败，而且会丢失文件，不推荐使用）

# 进入容器内部
docker exec -it es /bin/bash

# 在线下载并安装

#退出
exit

#重启容器
docker restart es

elasticsearch IK分词器

（手动拖入）

可以选择在对应网站下载（注意ik版本需要和es版本一致），然后将文件拖入到es容器挂载的数据卷目录下；

# 查看es容器挂载的数据卷路径
docker volume inspect es-plugins

将下载下来的IK分词器文件，解压，复制到此目录下；

elasticsearch IK分词器

使用

IK分词器有以下两种模式：

ik_smart：最少切分，最少分词数量；
ik_max_word：最细切分，最多可分词数；

使用“ik_smart”模式，可以看右侧，分词是符合中文语境的；

elasticsearch IK分词器

“ik_max_word”模式

elasticsearch IK分词器

扩展词汇&敏感词汇排除

有一些人名、名牌、热词等词汇，在分词时可能会被拆分开，如“王麻子菜刀”，可能被拆分成了“王麻子”、“菜刀”，拆分之后就没有意义了。这些词汇可以添加到IK分词器的扩展字典文件中，使分词时这些词汇被作为一个完整的词划分。

elasticsearch IK分词器

另外，也有一些词汇是敏感词汇（政治、宗教、辱骂等等），我们希望在搜索时，这些分词不参与分词和搜索。同样这类词汇也可以添加到IK分词器的停用词典中，使这类敏感词汇不参与分词和搜索。

第一步：修改配置文件

在IK分词器目录下，切换到config目录，打开文件IKAnalyzer.cfg.xml，设置扩展词汇和排除词汇文件名；

elasticsearch IK分词器

IKAnalyzer.cfg.xml文件内容

elasticsearch IK分词器

第二步：添加词汇

分别在扩展词汇词典、停用词典添加对应的词汇

（扩展词汇文件，ext.dic，该文件不存在，需手动创建）

elasticsearch IK分词器

（停用词典文件，stopword.dic，新增一个词汇月亮）

elasticsearch IK分词器

第三步：重启es

重启es，测试，可以看到分词把“毛源昌眼镜”当做一个词来划分了，达到了想要的结果；

elasticsearch IK分词器

同样，月亮被作停用词典中的词汇，未参与分词；

elasticsearch IK分词器

注意

需要注意的是，如果一个词汇是一个较为特别的词汇，如“独钓寒江雪”；

elasticsearch IK分词器

在分词排除时不会排除掉，因为在分词时，这句词汇不太可能被分为一个完整的词汇，而在停用词典中，是根据完整的词汇来排除的；
elasticsearch IK分词器

所以，做到万无一失，应该把需要排除分词的词汇，先在扩展词典里添加，然后再在停用词典里添加，这样就绝对会被排除掉了；

elasticsearch IK分词器

重启es，测试，“独钓寒江雪”被完全排除

elasticsearch IK分词器

总结

es分词对中文兼容不太好，可以选择IK分词器来使用，IK分词器有两种模式，分别是“ik_smart”、“ik_max_word”。

另外，IK分词器支持对词汇进行扩展，可以把一些需要绑定在一起的词汇，不希望被分开的词汇写入到扩展词典中，这些词汇会被当做一个整体参与分词；同样如果需要排除一些词汇，不希望这些词汇参与分词，也可以将这些词汇写入到停用词典中。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

elasticsearch IK分词器

elasticsearch IK分词器

IK分词器

安装

使用

扩展词汇&敏感词汇排除

第一步：修改配置文件

第二步：添加词汇

第三步：重启es

注意

总结

相关文章

Selenium Webdriver 3.X源码分析之核心代码common

【漏洞复现】CVE-2015-5531 Arbitrary File Reading

Python测试开发初稿

有一批气象观测站，现需要获取这些站点的观测数据，并存储到 Hive 中。但是气象局只提供了 api 查询，每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据？

推箱子自动求解。

手写归并排序

已知两个非负数的异或值为M，两数之和为N，求这两个数？

1到100万以内，如何打印99万个不重复的随机数？

ElasticSearch中的分页（size、from）

web安全入门-搜索引擎信息

作者介绍

最新文章

手写归并排序

1到100万以内，如何打印99万个不重复的随机数？

sqoop 的安装与常用抽数操作

metricbeat监控logstash，上报数据到Elasticsearch，Kibana中查看Logstash node节点的Transport address地址为127.0.0.1:9600

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

热门文章

58如何调出eclipse左边文件栏

java163-同步方法锁

java156-序列化

java162-同步对象锁

大数据Spark “蘑菇云”行动第93课：Hive中的内置函数、UDF、UDAF实战

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Vue课程43-事件绑定-通过this访问数据源中的数据

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

hive 的数据案例 统计网站的数据信息

Flink 算子简介

flink窗口函数之processWindowFucntion

flink写入到kafka 大坑解析。

hive 的数据案例统计网站的数据信息