垂直搜索引擎的研究与设计

合集下载

垂直搜索引擎分析

垂直搜索引擎分析

计算机信息检索实验报告——垂直搜索和通用搜索的比较分析班级:公管43 姓名:潘晓骏1 . 学期感悟不得不说这是我大学目前为止收获最多的一门课,我想我在您的课上收获得不仅仅是搜索技巧和能力的提升。

我想更多的是对于自学和独立做事的能力。

在此非常感谢你,希望用我最后一份作业给自己一个满意的答案。

2 . 引言在接下来的内容里我将主要比较分析垂直搜索和通用搜索的优劣和使用范围。

首先说下垂直搜索的概念,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

3 . 垂直搜索的特点分析3.1以为例的搜索作为一个专业的学术论文搜索网站。

在专业性上的优势体现的淋漓尽致。

但是由于是全英文的网站,所以在玩的过程中还是可能少了什么。

可以不经常看全英文网站,表示看得很累,但是在熟悉的过程中发现网站提供的信息还是十分准确的。

我想等我写论文时我会好好利用。

作者的选择文种的选择PDF格式的文章阅览图。

楼上的是关于年份选择的按钮。

楼下的淡蓝色字体是关于作者的一些信息3.2以奇虎网为例的搜索搜索的结果是越是通俗的东西在专业网站上也得不到给力的讯息。

只有当用户的需求是专业和个性化的时候。

垂直搜索的服务才显现其优点出来。

我感觉这排字很吸引我。

作为一个号称中文论坛第一门户。

其实打开还是百度,搜索的问答为住,可能也是我搜索词的问题。

3.3 以咕嘟妈咪为例的餐饮搜索不得不说当专业网站做的越来越好。

内容越来越丰富。

其实我的感觉也是十分的头痛。

看到茫茫多的信息。

基于信息推送的领域垂直搜索引擎研究

基于信息推送的领域垂直搜索引擎研究

品,在智能搜 索 引擎 中起着 重要作用 。本文 统计用 户的搜 索历史记 录 ,利 用 向量模 型 ,将历史检索关键词 和关键 词出现 的频率建立成空间上 的i 向量。定义用户 i 2 维 和用 户j_间的统计 响亮为V 和V ,两者 的相似性通过 向量间的余弦 夹角度量 ,余 弦值越 2 i j 大 表 明两 用 户 的相 似 程 度 越 高 。V SV 的 相似 性S m ( ,J i Sj i i )为 :
I》 -一 ) 研笈展………… )







基于信息推送的领域垂直搜 索引擎研 究
东南大学软件 学院 沈 典
【 摘要 】随着 互联 网信 息量的不断膨胀 ,以及人们对获取信息的速度、针对性、准确性等方面更高的要求,传 统搜 索引擎 已经无法满足用户的需求。针对于此,本文提 出了通过分析 用户行为特征得 到用户兴趣 点,主动推送有价值的信息 ,结合领域垂直搜索技 术的思想,并 以数码产 品搜索领域为例 ,分析设计 了一款基于信息推送的数 码 产品垂 直搜索引擎 。通过 实验证明,基 于信息推送 、垂直搜 索思想的we 检索 点播 服务模 式是 能够发现并 匹配用户兴趣的 ,基于此思想的推送和搜索结果是准确 b 快速有效 的,系统设计方案是切实可行的。 【 关键词 】信 息推送 ;垂直搜索;协同过滤;反向索g l
分。
取得针对用户u 的 _ P 最高的n 个文档作为t p N o - 推荐集 ,作为推送源 ,向用户浏 览器 主 动 推 送 。 ( )检 索 与 排 序 3 结果排序 的好坏 是检验搜 索引擎有效性 的重要标准 ,大 部分 ( 8 )互 联网用户 8% 仅 关注搜 索引擎结果前三页的 内容 ,如果前三页没有满意 的结果,立刻变换关键词或 者更 换 搜 索 引擎 重 新 进 行检 索 。

垂直搜索引擎应用研究

垂直搜索引擎应用研究
现 代 商 贸 工 业 Mo enB s e rd d s y dr ui s T aeI ut ns n r
21 0 0年第 4 期
垂直搜索 引擎应用研究
赵 宏 中 李 亚
( 汉理 工 大 学 计 算 机 科 学与 技 术 学 院 , 北 武 汉 4 0 7 ) 武 湖 3 0 0
有 垂 或 主动地面对 数十 亿 页面 的 网络信 息 , 找到 自己需要 的 引 擎层 出不穷 , 权威 人士认为 , 直搜 索引擎 将是未 来主 想 信息 简直 就是 “ 大海捞 针” 。搜 索 引擎的横 空 出世让 我们 有 流 的搜 索 引 擎 系 统 。
. 了探索信息海 洋 的指 南针 。随 着技 术 的进步 , 个指 南 针 2 2 垂 直 搜 索 引擎 的 关键 技 术 这
需 其次, 时效性差 。网络信息 呈指数 增长 , 大量 信息 的存 止 。垂 直搜索爬虫 的工 作 流程 就 比较 复 杂 , 要 根据 一定 保 活期却 在缩短 , 这导致搜 索引擎 的时效 性难 以保证 , 回结 的网页分析算法过 滤掉 与 主题 无关 的链 接 , 留有 用 的链 返 接并将 其放 入等待抓取 的 URL队列 。然 后 , 根据一定 的搜 果 中存 在 大量 “ ” 接 和 “ ”链 接 。 错 链 死 , 再者 , 查准率 低 。一次 搜索 的结果 可能有 成千 上万 条 , 索策 略从 队列 中选择 下一 步要抓 取 的网页 URL 并重 复上 述 过 程 , 到 达 到 系统 的 某 一 条 件 时 停 止 。 在 抓 取 网 页 时 , 直 而在这庞大的信息 中, 用信 息只是其 中的-d 部 分 , 有 , 可谓 广 “ 冰山一角”并且常 常有收到和下载的信息难 以消化的情况。 网络 爬 虫 一 般 有 两 种 策 略 : 度 优 先 和 深 度 优 先 。 广 度 优 ,

生活服务领域垂直搜索引擎的设计与实现

生活服务领域垂直搜索引擎的设计与实现

建立和信息检索 4 个功能模块 的具体算法及实现 方式。实 际应用表明 ,该模型搜索效果 良好 ,提供 H ML和 WML 种方式的用户界面, T 2 已经成功覆盖全 国近 4 个城市的餐饮、娱乐和 黄页信息 。 0 关健词 :垂直搜索 ;网络蜘蛛 ;信息抽取 ;搜索 引擎
De i n a d I p e e t t n o r i a e r h En i e sg n m lm n a i f o Ve tc l a c g n S
食住 行提供大量有价值 的信 息,可 以极大地方便人们 的日常 生活。与其他搜索引擎相 比,生活服务领 域的垂直搜索 引擎
生话服 务领域 搜索 引擎系统
引擎很难从浩如烟海的信息资源 中快速准确地 筛选 出特定 内 容 。因此,垂直搜索引擎应运而 生,它专 门针对某 个行业领 域内信息进行搜索 ,是搜索引擎 的细分和延伸。与通用搜索 引擎不同,垂直搜索引擎只按照特定主题采集 网页信息 ,并
把非结构化 的网页信息转化和提取为结构化数据。还要将这
些数据存储到数据库 ,最后分词 、索 引再以搜索的方式满足 用户的请求…。 面向生活服务领域的搜索 引擎是垂直搜索引擎 中最重要
信息采集 l
I信息抽取 I
【索引建立 I
I信息检索
的应用之一 。比如餐饮搜索、娱乐搜索、购物搜索 、房产搜 索和黄页搜索等 。生活服务领域 的垂直搜索引擎为人们 的衣
i f e v c sDo a n n LieS r ie m i
J Y , I e CHEN Ya YANG Ja , U Ro g n, in M n
( rn p r t nMa a e n c o lDainMaime ies y Da a 1 0 4 Chn ) T a so t i n g me t h o , l r i v ri , l n 1 6 2 , ia ao S a t Un t i

中文垂直搜索引擎研究与实现

中文垂直搜索引擎研究与实现
分 析 转换 的方 法 , 自动 抽 取 结 构 化 的 数 据 。 13 中 文 分词 .
设 计 中 文搜 索 引 擎 首 先 要 进 行 中 文 分 词 。 目前 分 词 的方 法 主 要 有 三大 类 : 械 分 词 方 法 、 于 统 计 的 分 词 方 法 和 基 于理 解 机 基
0、 言 引
随 着 Itme 的 普 及 和 发展 . 索 引擎 已经 成 为 大 众 获 取 信 ne t 搜
息 的 重要 渠道 。通 用 搜 索 引 擎 很 大 程 度 上 能 够 帮 助 人 们 查 找 互 联 网 上 的 信 息 , 其 在 使 用 中 面 临 着 覆 盖 率 低 、 效 性 差 、 导 但 时 易 致 迷 航 、 询 结 果 不准 确等 问题 。赛 迪 调 查 显 示 :0 查 4 %以 上 的 网 络用 户认 为 .目前 的 通 用 搜 索 引擎 提供 给 用 户 的 不 相 关 信 息 太 多 。 们 呼 唤 更 有 针 对 性 的 搜索 引擎 工 具 , 直 搜 索 技 术 应 运 而 人 垂 生 。垂 直 搜 索 引擎 是 专 为 查 询 某一 特定 领 域 的 信 息 而 产 生 的 查 询 工具 。 专 门 收 录 某 一主 题 信 息 , 解 决该 领 域 内 的 实 际 查 询 它 对 问题 比通 用 搜 索 引 擎 有 效 得 多 。 于 它面 向某 一 特 定 领 城 。 备 由 具 有效 的信 息采 集 策 略 . 得 索 引 更新 周 期 大 大 缩 短 . 证 了对 该 使 保 领域 信 息 的 及 时 更 新 , 够 从 根 源 上 避 免搜 索 时 产 生 的” 音 ” 能 噪 , 从 而 极 大 地 提 高 了查 询 效 率
11 聚 焦 爬 虫 .
爬 虫 是 搜 索 引 擎 中 的重 要 模 块 它 是 一 个 自动 收 集 网页 的

论垂直搜索引擎与通用搜索引擎

论垂直搜索引擎与通用搜索引擎

网络营销论文垂直搜索引擎与通用搜索引擎专业班级:指导老师:姓名:学号:二零一二年十月试论垂直搜索引擎与通用搜索引擎一、垂直搜索引擎(一)垂直搜索引擎的概念垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。

其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

(二)垂直搜索引擎所涉足的领域行业垂直搜索引擎的类别很多,如购物搜索、健康搜索、旅行垂直搜索、物流搜索等。

它们所涉及的行业有购物,旅游,商业,工作,娱乐,交友等行业。

在中国也有一些发展的比较好的搜索引擎。

1、论坛搜索:奇虎:创建于2005年9月。

号称中文论坛第一门户,以收集整理BBS存储着的大量信息为主。

使用群体为网编及混迹于BBS的网友2、生活搜索:酷讯:创建于2005年底。

这是一款以即时的生活信息为检索对象的专业搜索引擎。

它提供找工作、租买房、买火车票等服务,涵盖衣、食、住、行和工作、交友、购物等生活各方面。

同时具有自动更新功能,能够将符合检索需求的最新信息自动推到用户面前。

普通大众都是其使用群体。

3、旅游搜索:去哪儿:成立于2005年5月。

作为全球最大的中文旅游搜索引擎,去哪儿通过对整个在线旅游产品资源的整合与发布,提供实时、可信的旅游产品比价与服务比较系统,帮助消费者轻松进行充分选择,找到最适合自己的在线旅游产品,成就完美旅程。

是旅游、出行者的优先选择。

4、招聘搜索:搜职:成立于2005年5月。

号称全球最大的人才和职位中文搜索引擎,能即时搜索全国所有人力资源的网站、论坛(BBS)、社区(SNS)和企业HR频道。

手机产品垂直搜索引擎的设计与实现

手机产品垂直搜索引擎的设计与实现

( 2 . NO. 7 0 3 Re s e a r c h I n s t i ut t e o f CS I C, Ha r b i n He l i o n g j i a n g 1 5 0 0 7 8 , C h i n a )
Abs t r a c t :
W i t h t he r a pi d de v e l op me nt o fI nt e me t , t h e a m ou nt o fW e b i n f o r ma i t on i s m or e a n d mo r e l a r ge , a n d he t l o w c o ve ag r e
r a t e a n d l o w t i me —e f e c i t ve n e s s o f g e ne r a l s e a r c h e n g i n e oc c ur .Ai mi ng a t he t s e i s s ue s ,t he v e r t i c a l s e a r c h e ng i ne s f o r pr o f e si o na l i f e l ds
s e a r c h or f u s e r . On he t b a s i s o f t h e i f l f l — t e x t s e rc a h e n i g n e L u c e n e , we c a n d e s i n g a n d i mp l e me n t a v e r t i c l a s e a r c h e n g i n e w h i c h c a n me e t
技 术 论 坛
54 计 算 机 与 网 络 创 新 Nhomakorabea生 活

垂直搜索引擎技术

垂直搜索引擎技术

垂直搜索引擎技术垂直搜索引擎技术是一种特殊的搜索引擎,它针对某一特定领域或者垂直市场进行深入的信息收集和索引,并提供精准的搜索结果。

与普通的综合搜索引擎不同,垂直搜索引擎能够更加准确地满足用户在特定领域内的信息需求,提高搜索效率和精度,因此得到越来越多用户的青睐和喜爱。

一、垂直搜索引擎技术的发展历程随着互联网的迅速发展和普及,搜索引擎成为人们获取信息的主要途径之一。

而在发展过程中,普通搜索引擎面对着越来越大的信息量和越来越广泛的用户需求,如何提高搜索效率和精准度成为亟待解决的问题。

因此,垂直搜索引擎应运而生。

早期的垂直搜索引擎主要集中于某一特定领域的信息收集和索引,如百度知道、搜狗医生等服务,但是其搜索范围相对较窄,只能覆盖到该领域内的特定信息。

然而,随着技术的不断进步和数据的不断积累,如今的垂直搜索引擎已经具备了更强大的搜索能力和更广泛的数据覆盖面,例如针对特定行业的职业招聘网站、房地产网站等,都可以脱颖而出实现垂直搜索。

同时,许多大型综合搜索引擎也在不断完善自己的搜索技术,加强特定领域的搜索范围和搜索结果的准确度,比如谷歌在2013年推出了Google Hotel Finder,进行旅游行业垂直搜索。

二、垂直搜索引擎技术的特点1. 精准性高。

垂直搜索引擎能够深入挖掘某一领域的信息,避免了信息广度过大和定位不够准确的问题,对于用户信息需求的满足率明显提升。

2. 高效率。

由于涉及的范围窄,这类搜索引擎相对来说将获取和处理信息的速度变得更快。

其数据也备有针对性地进行了分析和整理,更快速地提供搜索结果,提高了用户信息的时间和效率。

3. 更好的用户体验。

针对相对专业用户的需求,垂直搜索引擎的结果更加丰富且更局限性,减少了用户需要扫描的信息量,相应减轻了用户阅读和辨认信息的负担,体验更加流畅和高效。

4. 更好的商业价值。

由于能够更加准确地推送目标用户更好质量的内容,且指向某一行业、领域,符合了广告投放的信赖,为相关厂商建立了很好的广告合作平台。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第27卷第7期 计算机应用与软件Vol127No.7

2010年7月 ComputerApplicationsandSoftwareJul.2010

垂直搜索引擎的研究与设计刘运强(贵州大学计算机学院 贵州贵阳550025)

收稿日期:2009-10-09。贵州省科技计划工业攻关基金项目(黔科合GY字[2008]3035);贵州省2008年省级信息化专项基金项目(0830)。刘运强,硕士生,主研领域:数据库技术与软件工程。

摘 要 通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。

关键词 搜索引擎 垂直搜索 爬虫 Lucene

RESEARCHANDDESIGNOFVERTICALSEARCHENGINELiuYunqiang(CollegeofComputerScience,GuizhouUniversity,Guiyang550025,Guizhou,China)

Abstract ThispaperpresentsthedesignandimplementationofaninformationretrievalsystemformobilephonesbyapplyingJAVAopen-sourcetoolssuchasLuceneandthroughstudyingtheprinciplesofverticalsearchengineandcriticaltechnologies.Inaddition,theanalysesaremadeonsomekeyproblemswhichhavetoencounterandresolvewhenconstructingtheverticalsearchengine.Thesolutionspertainingtotheseproblemsaregivenaswell,forexample,thepreventionofcrawlingsamehomepagerepeatedlyandtheexpansionofspecialisedtermsli2brary.Thesystemhashighpracticality.

Keywords Searchengine Verticalsearch Spider Lucene

0 引 言随着信息技术的快速发展,互联网已经成为人们获知信息的重要渠道。面对互联网如此庞大复杂的信息资源,仅依靠浏览器浏览的方式来获得我们所关心的信息是非常困难的,这就促使了网络搜索引擎的出现和快速发展。搜索引擎整合了众多网站的信息,将大量信息整合在一个平台上供用户检索,起到了信息导航的作用,已成为人们获取信息的有效工具。但是互联网的信息量呈爆炸趋势增长,每天都有数以万计的网页出现在互联网,使得搜索引擎对网络信息的覆盖率和搜索出结果的相关性、准确性在整体上呈下降趋势。检索出的结果集数量之多,经常都是几十万条甚至是几百万条记录,其中存在着大量的重复信息或是与检索主题无关的信息,要想从中快速、准确地找出所需要的信息变得越来越困难。人们需要更具有针对性、能快速准确定位信息的搜索引擎———垂直搜索引擎。本文通过对垂直搜索引擎原理的深入了解,设计并实现了一个用于手机信息检索的垂直搜索引擎。与其它一些垂直搜索引擎的研究相比,本文更为深入和实际地研究了垂直搜索引擎亟待解决的关键问题,并给出了解决方案,通过手机垂直搜索引擎实例也很好地证明了方案的可行性和实用性。1 垂直搜索引擎的原理和关键技术1.1 垂直搜索引擎的原理垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务[1]。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。可以简单地把垂直搜索引擎说成是搜索引擎领域的行业化分工,它为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。垂直搜索引擎通过网络爬虫在互联网上爬取某一特定领域的专业信息网页,并对爬取到的网页进行解析和处理,形成专业信息数据库,并对这些数据进行索引,形成索引库。用户在搜索引擎的客户端键人要查找的关键词,搜索引擎就会在索引库中找出与该关键词相匹配的摘要信息和URL,并将结果显示给用户,用户可根据输出的结果选择并访问相关站点。1.2 垂直搜索引擎的关键技术1.2.1 网络爬虫技术网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。爬虫通常是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫的实现需要一个支持HTTP协议的编程工具包,

本文所使用的是HttpClient,它是Apache的一个开源项目,用来

第7期 刘运强:垂直搜索引擎的研究与设计131 

提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。1.2.2 信息处理技术信息处理指的是在爬虫爬取的过程中能对无关网页进行过滤并且能对爬取到的网页进行解析,抽取出和主题相关的信息。这里需要用到网页解析工具HtmlParser,它是sourceforge上的一个开源项目,它提供了线性和嵌套两种方式来解析网页,主要用于Html网页的转换以及网页内容的抽取[2]。1.2.3 信息检索技术信息检索主要包含两部分的内容:索引和检索。对爬取的网页内容抽取整理后建立倒排索引,用户检索时搜索引擎会根据事先建立的索引文件确定查询结果。这里采用的是Lucene。Lucene也是Apache的一个开源项目,是一个全文检索引擎工具包,它提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene可以对任何的数据做索引和搜索。Lucene不管数据源是什么格式,只要它能被转化为文字的形式,就可以为Lu2cene所分析利用。也就是说不管是txt、Word、PDF、数据库还是其他什么形式的文件,只要可以从中抽取出文字形式的内容,就可以基于Lucene为其建立索引以及搜索。Lucene的系统结构如图1所示。图1 Lucene系统结构从图1可以清楚地看到,Lucene系统是由基础结构封装、索引核心、对外接口3大部分组成[3]。Lucene的源码共由7个包组成,下面介绍最为重要的几个包的功用:(1)org.apache.lucene.document 这个包提供了一些为封装要索引的文档所需要的类,比如Document、Field。这样,每一个文档最终被封装成了一个Document对象。(2)org.apache.lucene.analysis 这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。(3)org.apache.lucene.index 这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter和IndexReader,其中IndexWriter是用来创建索引并添加文档到索引中的,IndexReader是用来删除索引中的文档的。(4)org.apache.lucene.search 这个包提供了对在建立好的索引上进行搜索所需要的类。比如IndexSearcher和Hits,In2dexSearcher定义了在指定的索引上进行搜索的方法,Hits用来保存搜索得到的结果。2 垂直搜索引擎的分析与设计2.1 系统的设计目标本文设计实现的是一个用于手机信息检索的垂直搜索引擎,旨在实现准确、方便、快速查找手机信息的检索工具。用户只需要简单地输入手机的名称或相关参数作为关键词就能够找到各大手机商城所有销售手机中与该关键词相关的手机信息,

为使用者提供最新、最准确、最全面的手机信息。用户可以通过该系统查看到手机的详细信息,包括手机品牌、型号、报价、参数和手机图片等。2.2 系统的总体结构垂直搜索引擎(手机信息检索系统)主要由信息采集、信息处理和信息检索等模块组成,如图2所示。

图2 垂直搜索引擎系统结构图垂直搜索引擎的工作主要由以下区三部分来完成:

(1)信息采集 信息采集是通过网络爬虫来实现的,也就

是图中的Web爬虫模块。设定待爬取的资源为包含较全手机信息的几个大型网站,如太平洋手机网、163手机信息网、北斗手机网等,那么基于HttpClient构建的网络爬虫就可以实现抓取特定范围的、和手机相关的信息页面。(2)信息处理 信息处理是指对爬取下来的网页进行过

滤、解析和抽取,最终得到需要的有价值的信息。在图2中可以看到,网页解析后有三个转向:

解析得到的URL先经过判断是否被访问过,打上相应的标志后存储到BerkeleyDB(以下简称BDB)中,为信息采集模块服务,这样可以有效地避免重复爬取的问题;

解析得到的手机品牌、型号等词汇添加到专业扩展词库中,

为信息检索模块服务。专业词库的建立可以提高信息的查全率,弥补了传统的基于词库的检索系统由于词库中缺少相关词汇而检索不到信息的不足;

解析得到的手机信息(品牌、型号、价格、参数等)存储到数据库中。(3)信息检索 信息检索主要包括索引、检索和用户接口。

首先对保存在数据库中的手机信息进行索引,然后用户就可以通过用户接口,提交关键字进行查询,系统的检索模块接收到查询关键字后,在索引中快速查找并将结果返回给用户;还可以进一步查询保存在数据库中的信息,以获得相应手机的详细信息。

3 系统的关键问题及解决方法3.1 网络爬虫的实现构建一个垂直搜索引擎,爬虫是必不可少的工具,由于爬虫

相关文档
最新文档