solr完整快速搭建版(学习笔记)

Solr学习笔记

由于公司一个网站需要实现搜索功能的更新换代，在和编辑和领导沟通了一段时间之后，我们决定不再使用之前的通过JDBC发送sql语句进行搜索的方法。一番比较，我们决定选用Lucene来搭建我们全文搜索的框架。后来由于开发时间有限，Solr对lucene的集成非常好，我们决定使用Struts+Spring+Solr+IKAnalyzer的一个开发模式来快速搭建一个企业级搜索平台。自己之前没有接触过这方面的东西，从不断看网上的帮助文档，逛论坛，逛wiki,终于一点一点的开发出一个有自己风格并又适合公司搜索要求的这么一个全文搜索功能。网上对于lucene,solr的资料并不是那么多，而且大多是拷贝再拷贝，开发起来难度是有的，项目缺陷也是有的，但是毕竟自己积累了这么一个搭建小型搜索引擎的经验，很有收获，所以准备写个笔记记录下来，方便自己以后回忆，而且可以帮助一下其他学者快速搭建一个企业级搜索。

主要思想：

此企业级搜索分2块，一块是Solr项目：仅关于Solr一系列配置，索引，建立/更新索引配置。另一块是网站项目：Action中通过httpclient通信，类似webService一个交互实现，访问配置完善并运行中的Solr，发送查询请求，得到返回的结果hits(solrJ查询，下面详解)，传递给jsp页面。

1.下载包

Lucene3.5

Solr3.5

IKAnalyzer3.2.8中文分词器（本文也仅在此分词器配置的基础上）

开发时段：2011.12中旬至1月中旬

（请自己下载…）

都是最新版，个人偏好新东西，稳定不稳定暂不做评论。

2.搭建Solr项目：

1.apache-solr-3.5.0\dist下得apache-solr-3.5.0.war复制到tomcat下webapps目录，

并更改名字为solr.war,运行生成目录.

2.将IKAnalyzer的jar包导入刚生成的项目中lib目录下。

3.Solr项目配置中文分词：

在solr/conf/schema.xml中节点下添加个类型（可直接拷贝下段代码）

isMaxWordLength="false"/>

ignoreCase="true" words="stopwords.txt"/>

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

protected="protwords.txt"/>

ignoreCase="true" words="stopwords.txt"/>

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

protected="protwords.txt"/>

此配置不过多解释：此处配置type并分成index和query 代表着在索引和查询时候的分词实现，isMaxWordLength表示是以何种分词实现，true,false各代表一种，具体请看IKAnalyzer说明文档。然后则是配置过滤器，看名字进行理解。（此处textik是域名，之后配置索引相关的字段域的时候如果需要分词则将type设置成=”textik”）

4.配置结束后启动tomcat,访问http://localhost:8080/solr/(多核情况下会有各自

独立的链接)进入，在头按钮中点击Analyzer（分析器）框1选择type中输入：textik 其他2框输入中文进行测试。表示固定类型为Testik,它会自动根据textik的配置进行分词，分词效果出来了则表示配置成功了。

5.接下来的工作就是在fields结点内定义具体的字段（类似数据库中的字段），就是filed，filed定义包括name,type（为之前定义过的各种FieldType）,indexed（是否被索引）,stored（是否被储存），multiValued（是否有多个值）等等。

(multiValued=true,设置此属性的值一般会通过拷贝字段拷贝值至此属性中

)

6.补充一个操作：tomcat下conf/server.xml, 8080端口设置区域加入URIEncoding="UTF-8" 解决中文乱码问题。

7.多核配置：（我喜欢称“库”）

Solr实例支持多core比启用多index要好（do more）。多core同时解决了在生产

环境下的一些关键需求：

1.重建索引

2.测试配置变更

3.合并索引

4.运行时重命名core

首先配置solr home:

solr/home

${catalina.home}/webapps/solr/conf/solr

https://www.360docs.net/doc/4915213449.html,ng.String

(tomcat 下conf下web.xml中配置)

找到solr下载包中的example文件夹，在它的下面有个multicore文件夹，将这个

文件夹下面的core0、core1和solr.xml拷贝到solrhome路径下。

(像百度,谷歌各类搜索引擎都会有分类进行搜索，图片、新闻、等等…我们可以通

过分库，每个库放一种类的索引配置等，查询时加入库名进行操作。)

（每个库都会有单独的schema.xml和solrconfig.xml配置，配置的内容大体就是需要配置的字段类型：types，字段fields。solrconfig.xml主要配置下

（每个库的配置中都应该有这样的配置，记住per-data-config,xml这个文件用于数据库导入建索引）

dataImportHandler是为了通过数据库查询进行搭建索引需要的配置：

在根（非库的solrconfig.xml）的solr/conf/solrconfig.xml中将包名路径修改，因为你的配置运行时可能会报没找到某些支持包的异常。

8.数据库数据导入建立索引

前面已经配置好一个per-data-config.xml文件，我这是用于一个类型的数据库配置，每个类型你可以配置成各个配置文件。

以db-data-config.xml为例：

此处需要把数据库jar包复制到web-inf/lib下。然后依据上面例子，将驱动，数据库名，用户名密码等逐一配置。

红色部分，也可以在schema.xml中配置，此处就可以省略了。

document：一个文档也就是lucene的document这个没什么解释的。

entity：主要针对的是一个数据库表。

filed：属性column是数据库的字段，name是filed的名字，即schema中的field name。

更多请参考官方wiki：https://www.360docs.net/doc/4915213449.html,/solr/DataImportHandler

启动TOMCAT，输入地址进行导入，导入分为多种模式：我用的是完全导入模式。

http://localhost:8080/solr/dataimport?command=full-import

在索引的时候如果数据量太大会出现内存溢出的情况，解决方法：responseBuffering=adaptive;selectMethod=cursor加到jdbc路径中，batchSize="100"（合适的数）感谢这位博主的分享：https://www.360docs.net/doc/4915213449.html,/topic/759148

*:*表示查询所有，在查询框中输入，看看是否索引建立成功。

9.增量更新索引

首先要确认表中有last_modified(名字不绝对)字段。即更新时间，每次更新添加操作都能从这时间中看出来的字段。

transformer="ClobTransformer"

query="select * from tb_message"

deltaQuery="select id from tb_message where to_char(last_modified,'YYYY-MM-DD HH24:MI:SS') > '${https://www.360docs.net/doc/4915213449.html,st_index_time}'">

(别漏掉pk=”id”，此处注意query语句不能加分号，增量索引实现实质会先在deltaQuery中查询出变化的id,然后会组装在query中+where id（即pk）=${deltaQuery.id} 具体自己需要常查看tomcat下logs/下当日的日志文件)deltaQuery语句，我用的sqlserver2005，后面时间比较条件是where modfy_time>'${https://www.360docs.net/doc/4915213449.html,st_index_time}(当通过数据库建立索引后,conf目录下会生成一个dataimport.properties,可以文本看里面内容，每次索引建立/更新都会相应的同步这里的时间，便于进行增量索引。)

重启tomcat。添加一条记录。

访问：http://localhost:8089/solr/dataimport?command=delta-import

再查询一下，是不是可以查询到刚才添加的记录了

10.查询JAVA

SolrJ搜索:

//远程服务端地址,得到solr服务

String SOLR_URL = "http://192.168.1.138:8080/solr/";

CommonsHttpSolrServer solrServer = null;

SolrDocumentList docs=null;

String finalquery="";

int start=0;

int rows=10;//默认是10

//建立solrQuery对象

SolrQuery query = new

SolrQuery().setFacet(true).setFacetMinCount(1).setFacetLimit(8);

if("".equals(searchContent)){

query.setQuery("*:*");

}else{

try {

Query q= IKQueryParser.parse(entity,searchContent);//分词后，再进行搜索(返回的是分词后的string)(先分词再搜索，否则会出现搜索不精确)

此处entity是个string,全文搜索字段，copyfield中拷贝了需要索引的字段在里面

finalquery=q.toString();//最终查询语句

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

query.setQuery(finalquery);

}

query.setStart(start);//从多少条开始

query.setRows(rows);//每页显示多少行

q uery.setHighlight(true);// 开启高亮组件

query.setHighlight(true).setHighlightSnippets(1); // set other params as needed

q uery.setHighlightSimplePre("");

q uery.setHighlightSimplePost("");

query.setParam("hl.fl", "c_name","c_shortname","synopsis");

query.setSortField("c_name", SolrQuery.ORDER.asc);//整体排序try {

//建立服务器

solrServer = new CommonsHttpSolrServer(SOLR_URL);

solrServer.setMaxTotalConnections(100);

solrServer.setSoTimeout(10000); // socket read timeout

solrServer.setConnectionTimeout(5000);

//查询并传值

QueryResponse rsp = solrServer.query(query);

docs=rsp.getResults();//得到所有的documents（数据）

for(SolrDocument solrDocument : docs) {//将高亮后的数据填充doc String id=(String) solrDocument.getFieldValue("c_id");

List highlightSnippets =

rsp.getHighlighting().get(String.valueOf(id)).get("c_name");

List highlightbrief =

rsp.getHighlighting().get(String.valueOf(id)).get("c_shortname");

List highlightSynopsis =

rsp.getHighlighting().get(String.valueOf(id)).get("synopsis");

if(highlightSnippets != null){

solrDocument.setField("c_name",

highlightSnippets.get(0));

}

if(highlightbrief != null){

solrDocument.setField("c_shortname",

highlightbrief.get(0));

}

if(highlightSynopsis != null){

solrDocument.setField("synopsis",

highlightSynopsis.get(0));

}

} catch (SolrServerException e) {

// TODO Auto-generated catch block

e.printStackTrace();

} catch (MalformedURLException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

代码不能直接运行，主要领会其中思路，自己尝试写的java文件，放main中运行测试下。其中主要注意几个问题，1.搜索前，对搜索内容分词；2.搜索的高亮展示。

Solr索引定时更新：

通过httpClient访问地址进行增量索引。

更新timer设置自己网上找

String person =

"http://localhost:8080/solr/core-per/dataimport?command=delta-import" ;

//构造HttpClient的实例

HttpClient httpClient = new HttpClient();

//创建GET方法的实例

GetMethod getMethod = new GetMethod(person);

//使用系统提供的默认的恢复策略

getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER ,new DefaultHttpMethodRetryHandler());

try {

//执行getMethod

int statusCode = httpClient.executeMethod(getMethod);

if (statusCode != HttpStatus.SC_OK) {

System.err.println("Method failed: "+

getMethod.getStatusLine());

}

//读取内容

byte[] responseBody = getMethod.getResponseBody();

//处理内容

System.out.println(new String(responseBody));

} catch (HttpException e) {

//发生致命的异常，可能是协议不对或者返回的内容有问题

System.out.println("Please check your provided http

address!");

e.printStackTrace();}

catch (IOException e) {

//发生网络异常

e.printStackTrace();

}

finally {

//释放连接

getMethod.releaseConnection();

}

通过solr的facet实现搜索自动补全功能

1.如果提示的字段类型是中文分词的类型，则补充一个字段，类型string类型

通过copyfield拷贝目标字段至补充字段。后面的功能查询时所引用字段肯定也得是:pname_auto补充字段

代码demo：

CommonsHttpSolrServer service=null;

try {

service = new

CommonsHttpSolrServer("http://localhost:8080/solr/core-per");

} catch (MalformedURLException e1) {

// TODO Auto-generated catch block

e1.printStackTrace();

}

List list = new ArrayList();

QueryResponse queryResponse = new QueryResponse();

SolrQuery query = new SolrQuery();

fl=id,name&rows=0&q=*:*&facet=true&facet.field=searchText&facet.

// mincount=1&facet.prefix=sony

//facet=true&rows=0&fl=id%2Cname&facet.prefix=sony&facet.field=se archText

try {

query.setFacet(true);

query.setRows(0);

query.setQuery("per:李");

query.setFacetPrefix("李");

query.addFacetField("pname_auto");

query.setFacetLimit(9);

System.out.println(query.toString());

queryResponse = service.query(query);

NamedList

solr完整快速搭建版(学习笔记)

solr教程

solr技术方案

zheng-环境搭建及系统部署文档20170213(三版)

SolrCloud使用教程、原理介绍我心动了

基于solr的异构数据融合检索技术_梁艳

Solr总结-吐血总结

虚拟机学习云环境第二篇Hadoop和Hbase 部署

Solr课件

我终于深入参与了一个分布式系统了,好多想法不一样了!