背景:mac + docker desktop + elasticsearch 7.8.0
一、安装ik中文分词插件
docker exec -it elastic_search /bin/bash -c 'bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.8.0/elasticsearch-analysis-ik-7.8.0.zip'
注意:这里我们使用的ik插件的版本也是7.8.0,主要目的是因为elasticsearch的版本是7.8.0,我们为了避免出现不兼容,这里特意选择版本一致,你也可以选择新版本的ik插件进行安装测试。
二、重启elasticsearch
docker restart elastic_search
三、测试ik分词效果
curl -X GET "http://localhost:9200/_analyze" -H 'Content-Type: application/json' -d' { "analyzer": "ik_smart", "text": "我爱自然语言处理" }'
四、存在的问题
步骤三的例子,看起来分词效果还不错,但是在我看来还是存在不少问题,你可以换个句子,比如:
这家餐厅很差,环境也很差,服务态度也很差,不推荐!
再次观察ik对这段话的分词结果,就我个人而言,这次的分词效果并不符合我的预期,使用mysql分词、jieba分词,还有其他分词库,得到的分词结果都不尽如人意,这说明目前开源的分词插件还是有很大改进空间,感兴趣的朋友可以自行研究。