Solr搜索引擎—中文全拼简拼分词


Solr搜索引擎—中文全拼简拼分词


搞定了中文分词下一个就是要来搞定拼音分词了,拼音分词有分为全拼和简拼

附上:

喵了个咪的博客:http://w-blog.cn

Solr官网:http://lucene.apache.org/solr/

PS:8.0.0版本已经发布,本文使用此时较为稳定的7.7.1版本

一,全拼分词

> wget http://files.cnblogs.com/files/wander1129/pinyin.zip

> unzip pinyin.zip

> mv pinyin4j-2.5.0.jar server/solr-webapp/webapp/WEB-INF/lib

> mv pinyinAnalyzer4.3.1.jar server/solr-webapp/webapp/WEB-INF/lib

> vim server/solr/new_core/conf/managed-schema

<fieldtype>

<analyzer>

<tokenizer>

<filter>

<filter>

<analyzer>

<tokenizer>

<filter>

<filter>

Solr搜索引擎—中文全拼简拼分词


自制分词规则

> webapps/solr/WEB-INF/classes/

> cd /usr/local/solr-7.7.1/server/solr-webapp/webapp/WEB-INF

> mkdir classes

> wget http://pic.w-blog.cn/ikanalyzer-solr5.zip

> unzip ikanalyzer-solr5.zip

> cd ikanalyzer-solr5/

> mv ext.dic ../server/solr-webapp/webapp/WEB-INF/classes/

> mv IKAnalyzer.cfg.xml ../server/solr-webapp/webapp/WEB-INF/classes/

> mv stopword.dic ../server/solr-webapp/webapp/WEB-INF/classes/

> vim ext.dic

美团

Solr搜索引擎—中文全拼简拼分词


简拼分词

> wget http://pic.w-blog.cn/pinyinTokenFilter-1.1.0-RELEASE.jar

> mv pinyinTokenFilter-1.1.0-RELEASE.jar server/solr-webapp/webapp/WEB-INF/lib

> vim server/solr/new_core/conf/managed-schema

<fieldtype>

<analyzer>

<tokenizer>

<filter>

<filter>

<filter>

<analyzer>

<tokenizer>

<filter>

<filter>

Solr搜索引擎—中文全拼简拼分词


<field>

Solr搜索引擎—中文全拼简拼分词


Solr搜索引擎—中文全拼简拼分词


分享到:


相關文章: