大家在solr中运用中文分词器进行查询可能都遇到过一个问题,就是不管你用哪种中文分词器,在solr中配置好后,发现利用solr提供的analysis页面中可以看到中文分词效果,solr也按照分词后的结果创建了索引,但是在solr中就是查询不到结果,在网上也找了很多资料,都没有解决,后来我发现我进入了一个误区,其实solr的analysis只是提供查看分词效果的,但是你想简单通过几个中文分词的配置就实现在solr中的搜索是不行的,这个还是要自己在代码中处理的。现在我的处理方法是这样的,先看下这个帖子
http://blog.chenlb.com/2010/08/get-solr-analysis-word.html.通过这个url可以去查询到分词后的结果,你可以让他显示成json或者xml格式(可以针对自己solr配置的路径去修改这个url),然后写个工具类去解析它,获得中文分词结果,到此距离成功还有一步之遥,但是这一步又有一个问题产生,假设一开始搜索“联想中国”没有搜索到结果,但是人为的加上空格变为“联想 中国”去搜索就有结果了,有人说solr中空格后默认加上的是“OR”,所以可以查询到,但是我在实际中试过,如果分词全用空格去拼接,有的可以搜索到,有的还是不行(但是比一开始什么都搜不到又进一步,因为这里在代码中又处理了分词),所以想到最后解决方案是所有的分词全用”OR“去拼接,这下可以搜到结果了,如果大家有好的建议,可以提给我,谢谢大家。
分享到:
相关推荐
solr 中文分词
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
solr中文分词器
由于网上提供的solr中文分词器大多不吃吃6.5以上,会报错(具体错误提示忘了),这里提供高版本,内含使用教程
solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的...
该分词器支持solr7.x
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...
solr 源码 + IK 分词器 + zookeeper。
lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器
zip包含ik-analyzer-solr5-5.x.jar,ext.dic,IKAnalyzer.cfg.xml,stopword.dic。可以兼容solr7 ,亲测可用。
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
solr5 中文分词
solr 中文查询分词器,把一串字符分作多个词语进行查询
solr7.3.1种需要的中文IK分词器,其中包括IK分词的jar和配置文件还有mmseg4j
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
Solr5.5搜索引擎之分词原理说明.docx 介绍了Solr5.5内部使用的分词原理,有助于开发者自定义自己的分词器时掌握分词的基础知识。