面向垂直搜索的聚焦爬虫研究及应用

合集下载

面向垂直搜索的聚焦爬虫研究及应用精品PPT课件

网页解析Web-Harvest
• 自身脚本解释与执行引擎、内嵌 BeanShell、JavaScript和Groovy等引擎
• 支持XPath、XQuery和正则表达式等多种文本处理技术
• 可视的控制调试程序
Web-Harvest执行脚本
起始URL Http
HTML内容 Http-to-Xml XML内容
应用技术研究
网络爬虫Heritrix
Heritrix
ToeThread BdbFrontier
CrawlController
● CrawOrder ● CrawlScope ● Frontier ● ToePool ● ProcessorChainList
● BdbMultipleWorkQueues ● BdbWorkQueue ● BdbUriUniqFilter
• 基于网页内容的分析算法
从最初的文本检索方法，向涉及网页数据抽取、机器学习、数据挖掘、自然语言等多领域综合的方向发展。
• 基于用户访问行为的分析算法
有代表性的是基于领域概念的分析算法，涉及本体论。
发展趋势
• 网页库级层次垂直搜索 • 智能化的数据分析和挖掘方向 • 自动化地结构化数据信息抽取技术
Spider_task
Async
Index Builder
Spider Task
Index dist
spider
spider
spider
Internet
search
search
search
搜索引擎分类
• 通用全文搜索
特点:特点：“专、精、深”，行业化例：Healthline、Kooxoo、Koubei

垂直搜索引擎及其算法的研究与应用

垂直搜索引擎及其算法的研究与应用近年来，随着互联网技术的快速发展，互联网上的信息也愈加丰富和广泛。

传统的搜索引擎在海量信息的处理上面临着难以克服的问题。

而垂直搜索引擎因为更专注于特定领域的信息搜寻和整合，已经成为了信息获取的新选择。

一、垂直搜索引擎的定义与作用垂直搜索引擎是一种关注某一特定领域的信息集成、分类和展示的搜索引擎，其目的是为了帮助用户更快速、更方便地获取与特定领域相关的信息。

与传统搜索引擎不同，垂直搜索引擎会将搜索结果根据不同领域进行分类，从而提供更加精准的搜索结果。

例如，医疗垂直搜索引擎就会针对医学领域的信息进行整合和分类。

除了提供更精准的搜索结果之外，垂直搜索引擎还能帮助用户节省大量的时间和精力。

在传统搜索引擎上，用户需要花费大量的时间来筛选并找到所需信息。

但是，在垂直搜索引擎上，用户只需要输入相关的关键词即可获得对应领域下的最佳搜索结果。

二、垂直搜索引擎的算法研究垂直搜索引擎的核心算法有以下几个方面：1. 文本挖掘技术文本挖掘主要是对文本进行处理和分析。

在垂直搜索引擎中，文本挖掘可以用于提高搜索结果的相关度和准确度。

通过对文本进行自然语言分析，可以更加准确地提取标题、关键词、摘要和正文等信息。

同时，利用机器学习技术，可以训练出更加准确的分类器，从而提高搜索结果的精度。

2. 语义分析技术语义分析是将搜索关键词转化为它们内部的含义，并且在搜索时自动执行关键词扩展、分类、创新性搜索等。

通过语义分析技术，可以减少用户的误差，提高搜索结果的相关度和准确度。

通常，语义分析技术需要根据不同领域之间的语义差异，进行不同的处理和优化。

3. 数据获取与整合技术数据获取与整合技术是保证垂直搜索引擎所提供的信息具有全面性和及时性的核心。

垂直搜索引擎需要针对不同的领域搜集信息，并进行本地化整合。

最好的方式是通过与特定领域的网站进行合作，获取更准确和全面的信息。

同时，垂直搜索引擎的数据整合可以通过冗余消除和关键性提取等方式，从而保证所提供的信息超出同行之上。

垂直搜索引擎的设计与实现研究

垂直搜索引擎的设计与实现研究随着人们对信息获取需求深入，搜索引擎成为我们生活中必不可少的一部分。

而传统的搜索引擎，如Google、百度等广义搜索引擎，面对互联网上深度的数据，势必存在缺乏效率和准确性的问题。

垂直搜索引擎应运而生，它通过更加深入和具体的搜索，能够满足用户的精细化需求。

本文将围绕着垂直搜索引擎的设计和实现进行研究。

一、垂直搜索引擎的定义传统的搜索引擎是基于互联网爬虫技术实现的广义搜索，搜索结果丰富，但也不可避免的存在大量垃圾信息和重复信息。

而垂直搜索引擎是基于一定的领域知识，对某个领域的深入挖掘，提供更加准确的搜索结果。

比如，假设我需要查询设计专业中关于建筑设计的信息，如果用传统搜索引擎搜索，结果可能包含建筑公司、建筑规模、建筑业等，但如果使用垂直搜索引擎，结果则会更加具体，如建筑设计展示网站、设计大师榜单，甚至是建筑知名设计师的思路与作品陈列等。

可以看出，垂直搜索引擎比传统的搜索引擎更加专业化，可以提供更加准确和有用的信息。

二、垂直搜索引擎的优缺点对于垂直搜索引擎，相比于传统搜索引擎有明显的优势和劣势。

1. 优势(1) 精准度：精准定位领域，使得搜索结果更加精准和有用；(2) 品质高：搜索结果质量高，能有效地满足用户的需求；(3) 速度快：准确性高，快速响应的特点，使用户的搜索速度显著提高。

2. 劣势(1) 覆盖范围小：针对特定领域，难以实现完全替代传统搜索引擎；(2) 缺乏广度：针对特定领域的局部性搜索，涉及领域广度较小；(3) 更新速度慢：领域全面清晰，需要更长的时间才能收集并更新。

三、垂直搜索引擎的设计和实现1. 搜索单一领域垂直搜索引擎针对一个领域进行深度搜索，所以在搜索任务的定义上要非常明确目标领域。

选择合适的领域是关键，涉及到以下因素：(1) 目标领域是否有今后的市场需求？(2) 目标领域的竞争程度如何？(3) 目标领域是否过于狭窄，无法满足其他用户的搜索需求？(4) 目标领域是否有初步的研究基础？通过上述考虑，得出正式的目标领域后，将搜索任务定义明确，指定种子URL、关键词、搜索内容、搜索模式等，确定搜索范围。

互联网垂直搜索服务在农业领域中的应用案例分享

互联网垂直搜索服务在农业领域中的应用案例分享概述随着互联网的快速发展和普及，人们对信息的获取需求也在不断增加。

互联网垂直搜索服务应运而生，为特定的领域和行业提供了更加专业、准确的搜索结果。

在农业领域，互联网垂直搜索服务也得到了广泛应用。

本文将通过分享一些实际的应用案例，探讨互联网垂直搜索服务在农业领域中的应用。

案例一：农作物病虫害诊断与防治在农业生产过程中，农作物的病虫害是一个重要的问题。

互联网垂直搜索服务提供了一种快速准确诊断农作物病虫害的方法。

例如，某云平台针对农作物病虫害搭建了专业的垂直搜索引擎，农民只需拍摄受害植株的图片，上传到平台，系统便能自动识别病虫害，并提供相应的防治措施。

这种互联网垂直搜索服务不仅解决了农民对病虫害的快速诊断需求，还帮助农民及时采取措施，减少农作物损失。

案例二：农产品市场信息查询农产品市场信息的获取对于农民和众多相关企业来说至关重要。

但是，市场信息的传统获取方式往往不便捷并且信息准确性难以保证。

互联网垂直搜索服务通过整合各地农产品市场信息，提供在线信息查询的功能。

例如，某农产品电商平台搭建了一个专门针对各类农产品价格、产量、质量评价等信息的垂直搜索引擎，用户只需输入农产品名称和相关区域，便能查询到最新的市场行情。

这种互联网垂直搜索服务为农民和相关企业提供了及时准确的市场信息，帮助他们做出更明智的决策，促进了农产品的销售和流通。

案例三：农业科研文献检索在农业科研领域，及时获取最新的相关科研成果是推动农业技术进步的重要保障。

互联网垂直搜索服务提供了一个便捷的检索平台，帮助科研人员快速获取与农业相关的文献资料。

以某学术搜索引擎为例，它通过整合全球各大学和研究机构的科研成果，提供专门针对农业领域的文献检索功能。

科研人员只需输入相关关键词，便能得到与其研究领域相关的最新文献。

这种互联网垂直搜索服务的应用为农业科研人员提供了一个高效的信息检索工具，推动了农业技术的创新和进步。

数据采集分类--垂直搜索引擎爬虫系统分析

3
1、与垂直主题相关的门户网站资源 2、行业用户提供的开放接口 3、普通用户发布的资源
垂直搜索引擎爬虫系统的关键技术（一）
4
主题词库的设计与实现
1、主题URL种子库
确定某个主题后，选择该主题门户网站下的相关频道作为主题URL种子。这些URL种子可以以文件存储或数据库存储的方式来进行保存。
垂直搜索引擎爬虫系统的关键技术（一）
垂直搜索引擎爬虫系统分析
垂直搜索引擎爬虫介绍
2
垂直搜索引擎爬虫是针对某一特定领域、某一特定人群或某一特定需求的专业搜索引擎，对网页库中的某类专门的信息进行数据爬取，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。它对数据的爬取和处理更加专注、具体和深入。垂直搜索引擎爬虫的内Fra bibliotek来源5
主题词库的设计与实现
2、主题词库的设计
主题词库的设计可以采用分层的模式。高层词库是含义较宽泛的主题词，层数越低的主题词范围限制越精细。网页爬虫在进行网页数据爬取时，首先把网页内容根据主题词库进行分词，高层主题确定后，深入该级主题进行文本匹配，完成下一级细化的网页搜索。然后运用相关度计算方法评估该网页与主题的相关性，相关性较高的可以作为索引。为了保证爬虫的爬取效率，主题词库的层数一般设为2到3层。
垂直搜索引擎爬虫系统的关键技术（一）
6
主题词库的设计与实现 3、主题词库的实现方法
因为主题词库采用分层结构，所以采用两张两层的哈希表来存储主题词。第一张哈希表存放所有主题词；第二张哈希表存储上下级主题词之间的关系。
垂直搜索引擎爬虫系统的关键技术（二）
6
控制网络爬虫 1、控制网络爬虫工作方式
可以采用主从式分布数据抓取或对等式分布数据抓取方式。 2、控制网络爬虫工作内容

垂直搜索引擎中的检索技术研究

垂直搜索引擎中的检索技术研究随着互联网的快速发展，信息量越来越庞大。

在浩如烟海的数据中找到所需的信息变得越来越困难，这时候搜索引擎就能给我们很大的帮助。

但是传统的搜索引擎只能提供大范围的检索结果，其中可能不全是我们所需要的信息。

于是垂直搜索引擎应运而生，利用特定领域的专家知识和算法，筛选出针对特定领域的优质资讯以便于用户使用。

而在垂直搜索引擎中，检索技术起着至关重要的作用。

本文将着重探讨垂直搜索引擎中的检索技术研究。

一、垂直搜索的概念及其意义相较于传统搜索引擎，垂直搜索引擎只针对某个特定领域进行数据的搜索整合和筛选。

这一特点使得用户在搜索时可以更加有效地获取所需信息，同时也使得搜索引擎在某一具体领域内获得更深层次的理解和分析。

因为垂直搜索引擎不用考虑包括涉政敏感信息的各种语言文本、各种垃圾信息甚至色情信息等等，对数据的筛选更加严格，更有利于提升检索质量。

二、垂直搜索引擎中常见的检索技术1. 关键词检索垂直搜索引擎最常见的检索技术就是用关键字来匹配所需信息。

关键字自然语言的特点和搜索引擎算法的词性标注技术共同作用，提高了数据质量和搜索效果。

通过关键字匹配，检索引擎可以判定文章所属领域的类别，文章中涵盖的内容、关键词等消息内容特征。

并根据搜索者提交的查询条件，筛选出最符合需求的信息。

基于关键词检索引擎技术的发展，以及人们对针对更精准的搜索结果的需求，该技术在不断深化，出现了基于短语、句子或主题的模糊搜索、相近词的检索及相关性计算等技术。

2. 爬虫技术爬虫技术是互联网搜索引擎中一项非常重要的技术。

它的核心就是通过爬虫程序“爬取”互联网页面，在其中寻找有关数据并整合成项目。

对于垂直搜索引擎而言，爬虫技术的作用更是不可替代。

通过专门的爬虫技术，垂直搜索引擎可以更精准地搜索某一领域内的数据。

这样就可以节省大量时间，同时也可以更加准确地维护数据的质量。

3. 自然语言处理技术自然语言处理技术在垂直搜索引擎中也得到了广泛应用。

垂直搜索引擎技术的研究与应用

垂直搜索引擎技术的研究与应用随着互联网的发展，越来越多的信息被上传到了网上，每个人在搜索信息时都希望能够尽快找到自己想要的答案。

而传统的搜索引擎却存在许多弊端，例如在搜索结果中夹杂着大量与实际需求不相关的信息，或者翻页问题导致用户需要耗费大量时间才能找到自己需要的信息。

因此，垂直搜索引擎技术的研究与应用成为了当前互联网信息检索领域的一个重要方向。

垂直搜索引擎的定义是指针对特定领域的信息，进行精准的检索，从而提供用户所需的相关信息。

与传统的搜索引擎不同，它们聚焦于特定领域，不对搜索结果进行排名，采用专业性极强的方法，以提供最符合用户需求的信息为目标。

例如针对酒店行业的垂直搜索引擎，仅从酒店行业获取信息，对用户的搜索需求进行研判，呈现结果。

从技术上来看，垂直搜索引擎的研究与应用主要包括以下聚光灯：一、垂直搜索引擎的索引方式垂直搜索引擎所面对的领域是特定的，数据量相对传统搜索引擎要少得多。

因此，垂直搜索引擎可采用一些全文索引技术，例如倒排索引等技术来索引数据，并采用数据预处理的技术提高系统响应速度。

二、垂直搜索引擎的排序算法由于垂直搜索引擎是面向特定领域的搜索，因此搜索结果不再单纯依赖于网页的链接等因素，而应采用特定领域的排序算法。

例如针对酒店行业的垂直搜索引擎，可采用用户反馈、酒店星级等因素作为排序依据。

三、垂直搜索引擎的数据采集数据采集是垂直搜索引擎数据来源之一。

垂直搜索引擎的数据采集可以通过网络爬虫实现。

在数据采集过程中，应该对网站信息进行抓取，存储和处理，并对获取的数据进行筛选处理，避免垃圾信息被采集。

四、垂直搜索引擎的关键词提取在垂直搜索引擎的数据处理过程中，采用关键词提取技术可以为用户提供更加准确的搜索结果。

通过自然语言处理技术，将文本或图片数据转化为词向量，并进行处理。

在提取关键词的过程中，关键字的准确率和完整性决定着搜索结果的准确性。

五、垂直搜索引擎的用户行为学习用户行为学习是垂直搜索引擎的核心技术之一，通过用户搜索习惯、搜索历史等信息获取，研究用户的需求倾向与搜索习惯，针对用户的需求进行精准推荐。

垂直搜索引擎应用研究

垂直搜索引擎应用研究垂直搜索引擎是面向某一特定领域的专业搜索引擎。

简要分析了通用搜索引擎的局限、垂直搜索引擎的优势及其关键技术。

标签：搜索引擎;垂直搜索;信息检索1 通用搜索引擎网络的发展极大地影响了我们的生活,它让我们更容易获取信息的同时,也彻头彻尾地将我们陷入了无边无际的信息海洋之中。

每时每刻我们都要自觉或不自觉,被动或主动地面对数十亿页面的网络信息,想找到自己需要的信息简直就是“大海捞针”。

搜索引擎的横空出世让我们有了探索信息海洋的指南针。

随着技术的进步,这个指南针的功能也越来越强大,使用并接受它的人也越来越多。

需要注意的是,虽然现代搜索引擎已经取得了很大的成功,但是它仍然存在很多不足之处,主要表现如下:首先,覆盖率低。

基于Web自身的特点,大量的数据分布在数以亿计页面的互联网上,检索起来十分困难,而单个搜索引擎的覆盖率一般都低于30%,很难索引到所有的Web资源。

其次,时效性差。

网络信息呈指数增长,大量信息的存活期却在缩短,这导致搜索引擎的时效性难以保证,返回结果中存在大量“错”链接和“死” 链接。

再者,查准率低。

一次搜索的结果可能有成千上万条,而在这庞大的信息中,有用信息只是其中的一小部分,可谓“冰山一角”,并且常常有收到和下载的信息难以消化的情况。

最后,过于死板。

现有的搜索引擎多采用关键词的机械式匹配。

没有考虑到用户的个体差异,不能满足用户的个性化需求。

这种方式的缺点是参与匹配的只有字符的外在表现形式,而非它们所表达的概念。

因此,经常出现答非所问、检索不全的结果。

2 垂直搜索引擎2.1 垂直搜索引擎的优势由于Web上的信息更加细化和专业,人们有时只关心特定领域、特定范围内的信息,而Google、Baidu等通用搜索引擎却只能提供范围很大但信息却不完整的检索服务,比如求职者在百度中搜索“招聘英语教师”,会有部分的英语教师职位,但是结果中很多职位都已经过期,有的甚至是一年前甚至更久的职位信息,对于招聘这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求。

垂直搜索引擎技术的研究和应用的开题报告

垂直搜索引擎技术的研究和应用的开题报告一、选题的背景和意义：随着互联网的发展，各种类型的网站和信息资源得到大量的增长，用户对特定领域的信息需求和搜索需求也日益增加。

这时传统的搜索引擎面临着越来越大的压力和挑战。

由此，垂直搜索引擎应运而生，它能够提供更精准的搜索结果和更好的用户体验，越来越受到广大用户的欢迎。

垂直搜索引擎是一种针对特定领域优化的搜索引擎，如国内知名的携程、美团、58同城等。

它们针对不同的领域提供了丰富的信息和服务，如机票、酒店、餐饮、房产等。

这些引擎的目标是提供最精准的搜索结果，满足用户的特定需求，而不是像大型搜索引擎那样提供全网信息的搜索。

垂直搜索引擎技术的研究和应用，已经开始得到广泛的关注和应用。

在垂直搜索引擎技术中，需要解决的主要问题有：数据收集、数据质量、数据标准化、信息检索、网页聚类、搜索引擎算法优化等。

针对这些问题的研究和应用，对于推动互联网产业的发展具有重要的意义。

二、研究的内容和方法：本文将以垂直搜索引擎技术的研究和应用为主题，深入分析其关键技术和应用案例。

具体的研究内容包括以下几个方面：1.垂直搜索引擎的概念与分类。

2.垂直搜索引擎中的关键技术和算法，如数据收集、数据处理、网页聚类、搜索引擎算法等。

3.垂直搜索引擎的应用实例。

4.对比传统搜索引擎与垂直搜索引擎的优势与不足。

具体的研究方法包括文献综述、实证分析和案例研究。

通过这些方法，可以深入了解垂直搜索引擎技术的发展现状和应用情况，以及未来的发展方向。

三、预期的研究成果和意义：预期的研究成果包括：在对垂直搜索引擎技术进行深入分析和研究的基础上，撰写一篇详尽的垂直搜索引擎技术研究与应用的开题报告，包括具体的数据、算法和应用案例等内容。

通过撰写开题报告，可以从理论和实践两方面深入了解垂直搜索引擎技术的研究进展和应用情况，为相关产业的发展提供有价值的参考。

研究的意义在于：1. 提高人们对于互联网搜索的准确度和效率，满足用户特定领域的需求。

垂直搜索引擎的关键技术与应用研究

垂直搜索引擎的关键技术与应用研究近年来，互联网的发展突飞猛进，传统搜索引擎如Google、Baidu等越来越成为人们获取信息的主要途径。

然而，对于某些特定领域的信息，通常需要更加专业的搜索途径，这时候垂直搜索引擎便应运而生。

垂直搜索引擎是一种针对特定领域的信息进行聚合、整理后进行信息检索的系统。

垂直搜索引擎与传统搜索引擎的区别在于其更专注于某一领域的信息，所以用户可以更快速、更准确地获取所需信息。

从技术应用方面来看，垂直搜索引擎的关键技术主要包括以下几点。

一、数据抓取和处理技术数据抓取和处理技术是建立垂直搜索引擎的基础，它是指通过网络爬虫自动获取需要检索的信息，然后进行处理和去重，并建立索引库。

保证数据的量和质量，是实现高效检索的前提。

这一步骤的关键应用包括爬虫技术、去重技术、抽取技术和索引技术等。

二、语义分析技术传统搜索引擎纯粹是基于关键词匹配，而在垂直搜索引擎中，语义分析技术是非常重要的。

语义分析可以帮助搜索引擎理解文字内容，识别意图，更好地理解用户的实际需求。

这方面的应用关键包括自然语言处理、意图识别和文本分类等技术。

三、推荐系统技术推荐系统技术在垂直搜索引擎中也扮演着重要的角色。

推荐系统能够根据用户的搜索习惯和历史记录为用户推荐相关内容，增加用户粘性，提升用户意愿。

在应用习惯研究和数据挖掘等方面，推荐系统应用得非常广泛。

四、用户体验技术除了技术实现，用户体验也是垂直搜索引擎不可忽视的一部分。

用户体验包括搜索界面设计、搜索速度和搜索结果的呈现等方面，并且垂直搜索引擎需面向具体领域和应用场景来进行优化。

通过不断提升用户体验，才能获得用户的信任和满意度。

在相关应用方面，垂直搜索引擎有着广泛的应用领域。

其中比较典型的是旅游、酒店、医疗、招聘等领域的垂直搜索引擎。

旅游和酒店垂直搜索引擎可以帮助用户快速找到满意的酒店房间和旅游产品；医疗搜索引擎可以为用户提供全面的医疗信息和医生推荐；招聘垂直搜索引擎可以帮助用户找到更有针对性的招聘岗位，并且提供相关的工资信息和面试技巧。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“智联招聘”定制Heritrix抓取组件
招聘信息记录iBatis组件
MySQL数据库
Spring容器
算法流程图
开始初始化加入种子URL 提取“职位类别”和 “行业类别”信息组合并加入待抓取 URL到队列单独记录“职位类别”和“行业类别”
Y
记录写入数据库
结束
Y
待抓URL队列为空
加入下一页URL到队列
• 基于用户访问行为的分析算法
有代表性的是基于领域概念的分析算法，涉及本体论。
发展趋势
• 网页库级层次垂直搜索 • 智能化的数据分析和挖掘方向 • 自动化地结构化数据信息抽取技术
应用技术研究
网络爬虫Heritrix
Heritrix
ToeThread BdbFrontier
CrawlController
HTML内容
Web-Harvest设计分析
• • • • • 外部执行入口Scraper 脚本运行的上下文环境ScraperContext 执行脚本脚本引擎 GUI组件
Web-Harvest扩展
• 继承或添加SystemUtilities这个脚本执行工具类的处理方法 • 在ScraperContext里加入新对象，并在脚本中用指定命名来调用
面向垂直搜索的聚焦爬虫研究及应用
吕昊
OUTLINE
• 背景 • 研究综述 • 应用技术研究 • 招聘搜索聚焦爬虫设计与实现
背景
搜索引擎
Step i Step i Step i
Async
Domain SpecAsync
Queue/store Process Text
核心技术
• • • • • Heritrix：（版本1.12.1） WebHarvest：（版本1.0） Spring Framework：（版本2.0.7） iBatis：（版本2.3.0.677） Jakarta Commons
系统结构图
Heritrix
Web-Harvest页面解析 “智联招聘” 页面解析脚本
• • • • 网站改版，维护成本高不适合大范围站点抓取服务器端运行，容易被封IP 增量抓取，无特别有效的处理办法，大多依赖站点的排序规则来优化
解决方向
• 网页库级 • 智能化信息获取 • 分布式
致谢！
关键技术分析
• 抓取目标的定义与描述 • 网页URL的搜索策略 • 网页的分析与信息的提取
抓取目标的定义与描述
• 针对有目标网页特征的网页级信息
对应网页库级垂直搜索，抓取目标网页，后续还要从中抽取出需要的结构化信息。稳定性和数量上占优，但成本高、性活性差。
• 针对目标网页上的结构化数据
对应模板级垂直搜索，直接解析页面，提取并加工出结构化数据信息。快速实施、成本低、灵活性强，但后期维护成本高。
● BdbMultipleWorkQueues ● BdbWorkQueue ● BdbUriUniqFilter
● ● ● ● ●
CrawOrder CrawlScope Frontier ToePool ProcessorChainList PreProcessor Fetcher Extractor Writer PostProcessor
N
记录写入数据库
Y
待抓URL访问过
有分页
N
抓取招聘列表信息
数据流图
指定种子 URL
单独记录“职位类型” 和“行业类型”
分析“职位类型”和“行业类型” 的搜索URL
记录职位信息组合搜索URL
下一页翻页URL
提取当前页职位信息
职位列表信息页
加入待抓URL
有无待抓URL
代码实现
• 点击播放演示
存在的问题
Index Builder
Spider_task
Index dist Spider Task
spider
spider
spider search search search
Internet
搜索引擎分类
• 通用全文搜索
特点:特点：“专、精、深”，行业化例：Healthline、Kooxoo、Koubei
招聘搜索聚焦爬虫设计与实现
目标
• 以智联招聘网（/）为样例抓取站点 • 抓取招聘职位信息
元数据分析：职位名称、职位类型、行业类型、工作地点、单位或公司及其网址、发布时间、来源站点、原始链接、描述信息
功能需求
• 从指定的种子URL地址开始，每次动态分析出含职位信息且不重复的待抓取URL，而不希望数据库中需要有额外表去存储这些非商业相关的URL信息
URL的搜索策略
• 深度与广度综合的搜索策略
逐步向下延伸，同时往广度方向遍历。虽然这种搜索方法综合平衡，但是容易造成重复搜索，降低效率且加重网络负担。
• 最佳优先搜索策略
预测候选链接与目标网页的相似度或主题相关性，对预测认为“有用”的链接进行搜索。优点在分析策略有效的前提下，搜索效率非常高；缺点是难以避免会遗漏一些链接。
Heritrix组件分析
• • • • • • • 中央控制器CrawlController 抓取范围策略组件CrawlScope 链接制造器Frontier 多线程处理 ToePool 、ToeThread 处理器Processor和处理器链抓取任务CrawOrder Web控制台程序
Heritrix扩展定制
• 定制自己的Exractor处理器 • 扩展PostProcessor中的FrontierScheduler • 定制链接制造器BdbFrontier的URL散列算法
继承QueueAssignmentPolicy，选择ELFHash
• CrawlScope和robots.txt对个别Processor 的影响
网页解析Web-Harvest
• 自身脚本解释与执行引擎、内嵌 BeanShell、JavaScript和Groovy等引擎 • 支持XPath、XQuery和正则表达式等多种文本处理技术 • 可视的控制调试程序
Web-Harvest执行脚本
起始URL XML文档 Xquery Http File Loop Ver-def Http-to-Xml XML内容保存在context XML内容 Xpath
功能需求
• 支持有条件地保存抓取来的职位信息，譬如只保存晚于某指定日期发布的职位信息 • 含控制台程序，可控制、监视系统运行，运行结束反馈总结报告信息
性能需求
• • • • • 可配置性可修改性并发性组件化可扩展通用性
开发环境
• 开发语言：Java • 开发工具：Eclipse • 数据库：MySQL
网页的分析及信息的提取
• 基于网络拓扑关系的分析算法
根据页面间超链接引用关系，来对与已知网页有直接或间接关系对象作出评价的算法。网页粒度PageRank ，网站粒度 SiteRank。
• 基于网页内容的分析算法
从最初的文本检索方法，向涉及网页数据抽取、机器学习、数据挖掘、自然语言等多领域综合的方向发展。
垂直搜索的本质
• 从主题相关的领域内，获取、加工与搜索行为相匹配的结构化数据和元数据信息。
如数码产品mp3：内存、尺寸、大小、电池型号、价格、生产厂家等，还可以提供比价服务
网络爬虫
• 因沿超链接 “爬行”的工作方式，被称为爬虫或蜘蛛 • 基于超链接与图的遍历算法，自动从网络下载Web信息的程序 • 通常用来为搜索引擎提供数据源
通用全文搜索的不足
• 质量与性能之间难以兼顾，倾向于网络覆盖与响应速度 • 搜索意图不明，基于关键字检索，结果含有大量干扰信息 • 缺乏行业化的特征分析，无法实现提供个性化服务
垂直搜索
• 服务于局部专业领域的精确搜索 • 用户难以描述他要找什么，除非让他看到想找的东西 • 注重专业化与结构分析 • 数据倾向于结构化和格式化
URL的搜索策略
• IP地址或域名搜索策略
搜索全面，不受多站点交错引用URL的干扰，但不适合多域名、分布式的大规模搜索。
• 广度优先搜索策略
类似先进先出的队列方式，逐层深入搜索。适合级数少的目标站点，但对于信息量大、层次结构深的目标站点，难以深入执行。
• 深度优先搜索策略
类似先进后出的队列方式。比较适合搜索深层次页面嵌套的目标站点，还能发现最大数目的交叉引用，但是容易导致爬虫的陷入。
面向垂直搜索的聚焦爬虫
• 将定向或非定向的网页抓取下来并进行分析后得到格式化数据的技术 • 服务于垂直搜索，目标获取与主题相关的结构化数据和元数据信息
研究综述
工作原理与流程
• 以一定的网页分析算法，提取与主题相关的超链接，加入待抓取队列 • 根据一定的搜索策略，从待抓取链接队列中选择下一步抓取链接，并重复上述过程，直到满足某一条件停止 • 从被抓取网页中提取结构化数据和元数据信息基础核心工作环节：网页抓取和信息提取。
功能需求
• 从待抓URL中提取出完整的职位信息，包括职位详细信息页的原始链接URL等，部分数据还需要深加工处理（如详细页的关键信息描述文本的提取）
功能需求
• 考虑到今后实际在多个招聘站点抓取时，可能需要建立一套统一的类目信息映射关系，系统要求单独记录“职位类别”和“行业类别”这两个特殊元数据信息到数据库