基于solr的异构数据融合检索技术_梁艳

基于solr的异构数据融合检索技术

梁艳1 刘双广1 劳定雄2

(1.重庆邮电大学通信与信息工程学院，重庆 400065；2.高新兴科技集团股份有限公司研发中心，广东广州 510530)

摘要：针对企业异构数据融合检索的需求，介绍了异构数据整合的常用方法和企业级搜索服务器solr的基本功能，结合xml异构数据整合、中文分词技术和友好的用户界面搭建了基于solr的异构数据融合检索系统，实现了对xml文件的索引和检索，为异构数据融合检索提供了解决方案。

关键词：solr；异构数据；XML；融合；检索

The Retrieval Technology of Heterogeneous Data Integration Based on Solr

Abstract:For the need of enterprise heterogeneous data integration retrieval, this thesis introduces the

common method of heterogeneous data integration and the basic function of Solr which is enterprise search

server. Combined the XML heterogeneous data integration with the Chinese word segmentation technology and the friendly user interface，this paper built the heterogeneous data integration retrieval system based on Solr, realized the indexing and retrieval of XML document and provided solutions for heterogeneous data integration retrieval.

Key words:solr；

Heterogeneous data；xml；integration；retrieval 作者简介：

梁艳（1988-），女，汉族，重庆市潼南县人，重庆邮电大学硕士在读，研究方向：信息检索；刘双广（1965-），男，汉族，广东省广州人，重庆邮电大学硕士生导师，EMBA，研究方向：物联网；劳定熊（1976-），汉族，男，广东省广州人，高新兴科技集团股份有限公司架构师，硕士，研究方向：云计算。

1 背景

互联网技术的发展，使得信息数据爆炸式增长。特别是在企业信息中，其非结构数据占到了增长数据的80%，包括PDF、word文档，图像、音频和视频等。企业在不同的应用平台拥有不同的检索系统，这给用户检索信息带来了诸多不便。如何构建一个统一的检索平台，使得用户在海量的异构数据中实现统一检索，一直是研究人员研究的热点。

2 异构数据融合技术

异构数据是指数据格式不同，内容不一，描述不同内容的数据，包括结构化数据（如数据库）、半结构化数据（如HTML、

XML）和非结构化数据（如文本、图片）[1]

。数据的统一访问的基

础在于数据融合集成，目前对于解决异构数据融合的研究有数据仓库、数据抽取和数据转换。

数据仓库是指不同来源的数据在进入数据仓库之前，转换为统一的格式为复杂的查询提供统一的视图，实现数据的统一访问[2]。其代表性的成果是ETL集成工具，ETL [3]允许提取、转换和加载异构数据到数据仓库中和实现数据迁移任务。但数据仓库主要是针对不同数据库中的结构化数据的整合，很难应用于非结构化数据的集成、实现非结构化数据的统一访问[4]。

数据抽取是指将无结构的的文本结构化处理，即输入原始文本输出固定格式[5]。部分数据库管理系统自带有数据抽取工具，能够低成本的解决异构数据整合问题，但在实际应用中有一定的局限性。

XML整合是数据转换技术的代表，即将各种异构数据转换为统一的xml文本格式，实现异构数据整合。XML(eXtensible

Markup Language，扩展标记语言)是互联网下的一个关键技术，它能很好地实现来源极端异构的数据描述和传输。XML能独立于应用系统,不受任何特殊的软件或者硬件平台限制,并且这些数据能重复使用,简单易懂,成为交换各种结构化、半结构化、非结构化信息的良好方式[6]。因此,采用XML文档作为底层数据的融合与集成技术,实现了异构数据源间数据共享并且更有效地利用信息资源。XML整合数据的一般模型为下图一所示：

3 solr搜索引擎

3.1 solr简介

Solr （Searching on Lucene Replication）[7]

是Apache

软件基金会下的一个开源子项目，它是一个高性能的、采用java5开发的、基于lucene全文搜索库的企业搜索服务器。提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

3.2 solr体系架构

Solr的系统结构图[8]如图2所示，solr主要分为3层，solr

在lucene的基础上进行了大量的改进，其中solr的底层为对lucene一些功能的改进封装。中间层为solr的核心层，搜索引

擎的主要功能都是在这一层实现的，包括对文档进行分析、建立索引、配置solr运行文件和保存索引文件等。最顶层包括HTTP接口，负责通过HTTP传入和返回XML文档；管理界面和索引更新模块。另外，索引复制功能是一个独立的模块，它是由一个主索引和多个从索引构成，从索引从主索引复制索引，主索引负

图一 xml数据整合模型

责更新索引，从索引复制同步索引和查询，一个主索引可以复制索引到多个从索引库。索引复制功能主要用于分布式索引和检索[8]。

3.3 solr的特性

⑴灵活性。Solr支持从数据库、web页面和文本中直接导入

数据，进行索引。它的索引方法非常简单，用POST方法向服务器发送一个请求，就可完成索引；并且solr的索引文件与lucene 完全兼容；Solr的灵活性还体现在可以根据需求灵活的修改配置文件，定义字段类型以及是否被索引、存储。

⑵异构性。Solr作为企业级搜索服务器，它最大的特点就是提供了对异构系统的整合，解决了企业搜索的一大难题。Solr 它提供了基于HTTP的标准XML和JSON接口，能对XML文件直接建立索引。solr还提供了DIH （DataImportHandler），用来从其他的异构系统批量导入数据的批处理器。

⑶可扩展性。Solr在顶端定义了一些对外的抽象接口，开发者可以将自己定义的模块功能添加到solr中，而只需要修改相应的配置文件就可以将相应的功能添加进去。

4 异构数据融合检索系统的设计与实现

4.1 系统架构

异构数据融合检索系统需要实现：

⑴从各数据库中提取数据信息，并转换为相应的xml文件，即完成数据爬虫功能；

⑵采用solr对xml文件创建索引；

⑶友好的用户界面，实现响应用户的搜索请求，返回结果。

图2 solr系统结构

图3 异构数据融合检索系统框图

异构数据融合检索系统框图如图3所示，爬虫模块完成提取数据的xml文件，实现异构数据的融合；solr索引模块需加入中文分词功能，完成对xml文件的索引；用户界面模块需要完成接受用户的查询请并且高亮显示，加上solr查询结果默认是以xml文件显示的，还需要实现xml文件与原数据库的关联显示。

4.2 异构数据抓取

为了实现异构数据整合，本文采取将所有异构数据源转换

为xml文件。本文具体采用Dom4j开源库提供的类和函数来生成xml文件。部分代码如下：

//数据库连接

String url="jdbc:oracle:thin:@192.168.33.58:1521:DAT A";

Strin g cla ssfor n a m e ="or a cle.jd b c.d river.OracleDriver";

String usename="wyue"; String password="wyue";Class.forName(classforname);

Connection con=DriverManager.getConnection(url,us wename,passord);

Statement sta=con.createStatement();//定义字段

Element ALID=TB.addElement("field");ALID.addAttribute("name","id");Element ALNAME=TB.addElement("field");ALNAME.addAttribute("name","ALARM_CODE_NAME");//将数据库值通过SETTEXT为XML值

ALID.setText(result.getString("ALARM_CODE_ID"));ALNAME.setText(result.getString("ALARM_CODE_NAME"));

//写入XML文件

O u t p u t F o r m a t f o r m a t =O u t p u t F o r m a t.createPrettyPrint();

X M L W r i t e r w r i t e =n e w X M L W r i t e r (n e w FileOutputStream(new File("alarm.xml")),format);

write.write(document);write.close();

4.3 solr系统实现

⑴solr的安装。Solr是apache的开源项目，需安装在JDK

和servlet容器（如tomcat）的基础上。安装好JDK和tomcat后，在官网下载solr安装文件，解压到当前目录。复制solr的dist 目录下的war文件到tomcat的webapps目录下，并重命名为solr.war。复制solr的example目录下的solr文件到指定目录下，并把该目录设置为solr.home。solr安装完成后，访问solr的管理界面http://localhost:8080/solr/，如出现solr的系统管理界面，则配置成功。Solr的管理界面如图4所示。

⑵中文分词。Solr只能提供简单的中分分词效果，为了提高异构数据检索系统的检索精准度，需要为solr添加中文分词器，本文选择IKAnalyzer作为solr的中文分词器。在官网下载

IKAnalyzer安装包，解压到本地目录，并将IKAnalyzer2012FF_

u1.jar、IKAnalyzer.cfg.xml、stopword.dic文件添加到tomcat\webapps\solr\WEB-INF\lib 文件中。最后，修改schema.xml文档中的内容。具体修改内容如下，在标签中添加如下内容：

⑶元数据定义标准。在进行xml文件索引之前，需要在schema.x ml文件中定义元数据字段，包括字段名称、字段类型和和是否索引、存储等信息。Solr对文件索引一定要定义唯一标示符uniquekey，一般将id字段设置为唯一标示符。为了实现不加字段名搜索，还需要配置默认搜索字段defaultSearchField，若需多个默认搜索字段，可将其余字段复制到defaultSearchField设置的默认字段中。具体配置如下：

⑷用户界面。设计用于界面时要求美观大方，它的主要功能有接受用户的查询输入，提交给solr，查询后在返回和显示查询结果。在浏览器中输入http://localhost:8080/search 将显

示系统主页，如图5所示，检索结果如图6所示。

5 结束语