nutch 信息抓取

合集下载

Nutch搜索引擎(第1期)_Nutch简介及安装

Nutch搜索引擎(第1期)_Nutch简介及安装

细细品味Nutch——Nutch搜索引擎(第1期)精华集锦csAxp虾皮工作室/xia520pi/2014年3月18日Nutch搜索引擎(第1期)——Nutch简介及安装1、Nutch简介Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎。

主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。

其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构。

Nutch目前最新的版本为version1.4。

1.1 Nutch的目标Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。

为了完成这一宏伟的目标,Nutch必须能够做到:●每个月取几十亿网页●为这些网页维护一个索引●对索引文件进行每秒上千次的搜索●提供高质量的搜索结果●以最小的成本运作1.2 Nutch的优点●透明度Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。

商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。

更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。

因此Nutch对学术搜索和政府类站点的搜索来说,是个好选择。

因为一个公平的排序结果是非常重要的。

●扩展性你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。

Nutch 是非常灵活的,他可以被很好的客户订制并集成到你的应用程序中。

使用Nutch 的插件机制,Nutch 可以作为一个搜索不同信息载体的搜索平台。

当然,最简单的就是集成Nutch到你的站点,为你的用户提供搜索服务。

●对搜索引擎的理解我们并没有google的源代码,因此学习搜索引擎Nutch是个不错的选择。

高级项目经理在线考试试题与答案

高级项目经理在线考试试题与答案

⏹当前文档修改密码:8362839⏹当前文档修改密码:8362839⏹更多资料请访问.(.....)截至2011年5月高级项目经理在线考试试题及答案2011年5月真题一、单选题(共40题)1、问题: 在WINDOWS AZURE BLOB中,PUT BLOB方法一次最多可以上传()MB的BLOB到云端服务器上。

答案: BA) 32B) 64C) 128D) 2562、问题: 下面关于负载均衡描述不正确的是()答案: BA) 负载均衡可以横向扩展服务器,提高网站响应速度B) 用APACHE可以实现硬件负载均衡C) 软件负载均衡成本低于硬件负载均衡D) 硬件负载均衡效率高于软件负载均衡3、问题: 有一个网络故障影响了200个用户。

与此同时,总经理的打印机也出现了故障,而他急于想打印一份报告。

可以从这些信息得出下列哪个结论?答案: AA) 没有足够的信息决定哪个事件具有更高的优先级B) 必须先修理总经理的打印机,因为该事件具有更高的业务影响度C) 两个事件具有相同的优先级D) 网络故障比总经理的打印机具有更高的事件优先级,因为它会影响更多的人4、问题: 下面关于SPHINX描述<B>不正确</B>的是()答案: DA) SPHINX检索基于SQLB) SPHINX使用数据库存储数据C) SPHINX支持分布式检索D) SPHINX检索无需建立索引5、问题: GOOGLE文件系统(GFS)提供给应用程序的访问接口是()答案: AA) 专用接口B) 遵守POSIX规范的接口C) 网络文件系统接口D) WEB网页接口6、问题: 在数据块服务器容错中,每个BLOCK对应()的校验码。

答案: CA) 8BITB) 16BITC) 32BITD) 64BIT7、问题: 无线城域网使用的无线协议是()答案: DA) 802.3B) 802.6C) 802.11D) 802.168、问题: ITIL在IT服务管理领域被认为是答案: AA) 基于业界实践经验而总结出的指导方法B) IT服务管理的国际标准C) 为IT服务管理而提供的标准模型D) 服务管理过程设计的理论框架9、问题: 配置管理与资产管理的不同点在于答案: DA) 资产管理只涉及具有产权的项,而配置管理涉及基础架构的每件事。

Hadoop权威指南-中文版(前三章)

Hadoop权威指南-中文版(前三章)

目录目录 I初识Hadoop 11.1 数据!数据 11.2 数据的存储和分析 31.3 相较于其他系统 41.4 Hadoop发展简史 91.5 Apache Hadoop项目 12 MapReduce简介 152.1 一个气象数据集 152.2 使用Unix Tools来分析数据 17 2.3 使用Hadoop进行数据分析 19 2.4 分布化 302.5 Hadoop流 352.6 Hadoop管道 40Hadoop分布式文件系统 443.1 HDFS的设计 443.2 HDFS的概念 453.3 命令行接口 483.4 Hadoop文件系统 503.5 Java接口 543.6 数据流 683.7 通过distcp进行并行复制 75 3.8 Hadoop归档文件 77Hadoop的I/O 804.1 数据完整性 804.2 压缩 834.3 序列化 924.4 基于文件的数据结构 111 MapReduce应用开发 1255.1 API的配置 1265.2 配置开发环境 1285.3 编写单元测试 1345.4 本地运行测试数据 1385.5 在集群上运行 1445.6 作业调优 1595.7 MapReduce的工作流 162 MapReduce的工作原理 1666.1 运行MapReduce作业 166 6.2 失败 1726.3 作业的调度 1746.4 shuffle和排序 1756.6 任务的执行 181 MapReduce的类型与格式 1887.1 MapReduce类型 1887.3 输出格式 217 MapReduce 特性 2278.1 计数器 2278.2 排序 2358.3 联接 2528.4 次要数据的分布 2588.5 MapReduce的类库 263 Hadoop集群的安装 2649.1 集群说明 2649.2 集群的建立和安装 268 9.3 SSH配置 2709.4 Hadoop配置 2719.5 安装之后 2869.6 Hadoop集群基准测试 286 9.7 云计算中的Hadoop 290 Hadoop的管理 29310.1 HDFS 29310.2 监控 30610.3 维护 313Pig简介 32111.1 安装和运行Pig 322 11.2 实例 32511.3 与数据库比较 32911.4 Pig Latin 33011.5 用户定义函数 34311.6 数据处理操作符 35311.7 Pig实践提示与技巧 363Hbase简介 36612.1 HBase基础 36612.2 概念 36712.3 安装 37112.4 客户端 37412.5 示例 37712.6 HBase与RDBMS的比较 38512.7 实践 390ZooKeeper简介 39413.1 ZooKeeper的安装和运行 39513.2 范例 39613.3 ZooKeeper服务 40513.4 使用ZooKeeper建立应用程序 417 13.5 工业界中的ZooKeeper 428案例研究 43114.1 Hadoop在Last.fm的应用 43114.2 Hadoop和Hive在Facebook的应用 441 14.3 Hadoop在Nutch搜索引擎 45114.4 Hadoop用于Rackspace的日志处理 466 14.5 Cascading项目 47414.6 Apache Hadoop的1 TB排序 488 Apache Hadoop的安装 491Cloudera的Hadoop分发包 497预备NCDC气象资料 502第1章初识Hadoop古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。

基于大数据的网络数据抓取方法

基于大数据的网络数据抓取方法

基于大数据的网络数据抓取方法概述:网络数据抓取是指通过互联网抓取数据的过程,大数据技术的发展为网络数据抓取提供了更高效、更准确的方法。

本文将详细介绍基于大数据的网络数据抓取方法,包括数据抓取的流程、常用的抓取工具和技术、数据清洗与处理等方面的内容。

一、数据抓取的流程1. 确定抓取目标:明确需要抓取的网站或者数据源,并确定所需的数据类型和范围。

2. 制定抓取策略:根据抓取目标,制定相应的抓取策略,包括确定抓取频率、抓取的深度和广度等。

3. 选择抓取工具:根据抓取策略选择合适的抓取工具,常用的工具有Python的Scrapy框架、Apache Nutch等。

4. 开始抓取:根据抓取工具的要求配置相关参数,启动抓取任务,开始抓取数据。

5. 数据存储:将抓取到的数据存储到数据库或者文件中,以备后续的数据清洗和处理。

二、常用的抓取工具和技术1. Python的Scrapy框架:Scrapy是一个强大的Python网络抓取框架,提供了丰富的抓取功能和灵便的配置选项,适合于各种类型的数据抓取任务。

2. Apache Nutch:Nutch是一个开源的网络抓取工具,具有高度可扩展性和灵便性,支持分布式抓取和多种数据存储方式。

3. Selenium:Selenium是一个自动化测试工具,也可以用于网络数据抓取,特殊适合于需要摹拟用户行为的抓取任务。

4. API接口:许多网站提供了API接口,可以直接通过调用API获取数据,这种方式通常更加稳定和高效。

三、数据清洗与处理1. 数据去重:由于网络数据抓取可能会浮现重复数据,需要进行数据去重处理,常用的方法有哈希算法、SimHash算法等。

2. 数据清洗:抓取到的数据通常包含噪声和无效信息,需要进行数据清洗,包括去除HTML标签、过滤非法字符、去除空白行等。

3. 数据格式化:将抓取到的数据进行格式化,使其符合统一的数据结构,方便后续的数据分析和挖掘。

4. 数据存储:将清洗和格式化后的数据存储到数据库或者文件中,以备后续的数据分析和应用。

Nutch爬虫

Nutch爬虫

Nutch搜索引擎简介Nutch 是一个基于Java 实现的开源搜索引擎,其内部使用了高性能全文索引引擎工具Lucene。

从nutch0.8.0开始,Nutch 完全构建在Hadoop 分布式计算平台之上。

Hadoop 除了是一个分布式文件系统外,还实现了Google 的GFS 和MapReduce 算法。

因此基于Hadoop 的Nutch 搜索引擎可以部署在由成千上万计算机组成的大型集群上。

由于商业搜索引擎允许竞价排名,这样导致索引结果并不完全是和站点内容相关的,而Nutch 搜索结果能够给出一个公平的排序结果,这使得Nutch 在垂直搜索、档案互联网搜索等领域得到了广泛应用。

背景知识Nutch 搜索引擎是一个基于Java 的开放源代码的搜索引擎。

Nutch 搜索引擎处理流程包括抓取流程和搜索流程,如图1 所示。

相应地Nutch 也分为2部分,抓取器和搜索器。

在抓取流程中,抓取器也叫蜘蛛或者机器人,以广度优先搜索(BFS)的方式从企业内部网或者互联网抓取网页。

这个过程涉及到对CrawlDB 和LinkDB 数据库的操作。

然后Nutch 解析器开始解析诸如HTML、XML、RSS、PDF等不同格式的文档。

最后Nutch 索引器针对解析结果建立索引并存储到indexDB 和SegmentsDB 数据库中,以供搜索器搜索使用。

在搜索流程中,搜索应用使用输入关键词调用Nutch 搜索接口(Nutch Query Interface)。

应用可通过网页上的输入框输入相应关键词。

搜索接口解析搜索请求为Lucene 全文检索引擎可以识别的格式。

Nutch 索引器将会调用Lucene 引擎来响应请求在indexDB 上展开搜索。

最后搜索接口收集从索引器返回的URL、标题、锚和从SegmentsDB 返回的内容。

所有上述内容将被提供给排序算法进行排序。

排序完成后,搜索接口将返回命中的搜索结果。

由于构建在Hadoop 分布式文件系统之上,Nutch 对CrawlDB, LinkDB, SegmentsDB 和IndexDB 数据库的操作都是通过调用M/R(map/reduce) 函数完成的。

网络数据采集框架Nutch及其应用研究

网络数据采集框架Nutch及其应用研究

网络数据采集框架Nutch及其应用研究一、Nutch的基本原理和架构Nutch是一个由Java语言编写的网络数据采集和搜索引擎工具,它采用了分布式的架构,能够实现快速、高效地抓取互联网上的信息。

Nutch的基本原理是通过模拟用户浏览器的行为,从网页中抓取所需的信息,并将其存储到本地的数据库中。

在实际应用中,Nutch通常与Apache Hadoop和Apache Solr等工具配合使用,实现数据的分布式存储和检索。

Nutch的架构主要由以下几个组件组成:1. 调度器(Scheduler):负责调度抓取任务,确定抓取的网页地址和优先级。

2. 抓取器(Fetcher):实际执行抓取任务,将网页内容下载到本地。

3. 解析器(Parser):对抓取到的网页内容进行解析,提取出其中的文本和链接信息。

4. 存储器(Storage):将解析后的数据存储到本地的数据库中,以便后续的检索和分析。

二、Nutch在实际应用中的优势1. 高效的抓取能力:Nutch采用了分布式的抓取策略,能够同时处理多个抓取任务,大大提高了抓取的效率。

2. 灵活的配置选项:Nutch提供了丰富的配置选项,用户可以根据自己的需求对抓取策略、解析规则等进行定制化设置。

3. 丰富的扩展接口:Nutch提供了丰富的扩展接口,可以方便地与其他数据分析工具进行集成,满足不同应用场景的需求。

4. 开放源代码:Nutch是一个开源项目,用户可以自由地查看和修改其源代码,满足个性化定制的需求。

三、Nutch在实际应用中的不足之处1. 抓取策略的优化:Nutch的抓取策略虽然灵活,但在实际应用中需要根据具体的需求进行优化,避免出现重复抓取和漏抓的情况。

2. 分布式环境的配置和管理:Nutch的分布式架构需要依赖于其他组件(如Hadoop),在配置和管理方面需要花费一定的精力。

3. 对大规模数据的处理能力有限:虽然Nutch在小规模数据上有良好的表现,但在处理大规模数据时,性能会有所下降,需要进一步优化。

大数据分析技术基础教学课件3-大数据处理平台Hadoop

•dfs.replication表示副本的数量,伪分布式要设置为1 •.dir表示本地磁盘目录,是存储fsimage文件的地方 •dfs.datanode.data.dir表示本地磁盘目录,HDFS数据存放block的地方
mapred-site.xml <configuration>
伪分布式模式 • Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件
分布式模式 • 多个节点构成集群环境来运行Hadoop
Hadoop的安装
Hadoop基本安装配置主要包括以下几个步骤:
第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最 后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的 重大特性
第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0, 是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x 增加了NameNode HA和Wire-compatibility两个重大特性
Pig是一个用于大数据分析的工具,包括了一个数据分析语言和其运行环 境。Pig的特点是其结构设计支持真正的并行化处理,因此适合应用于大数 据处理环境。
Ambari是一个用于安装、管理、监控hadoop集群的web界面工具。目前已 支持包括MapReduce、HDFS、HBase在内的几乎所有hadoop组件的管理。
◦ 10年后,摩尔在IEEE国际电子组件大会上将他的语言修正为半导体芯片上集成的晶体管和电阻的 数量将每两年增加1倍。

(完整word版)大数据技术文档

第1章绪论随着计算机技术、通信网、互联网的迅速发展和日益普及,Internet上的信息量快速增长。

从海量的信息块中快速检索出用户真正需要的信息正变得很困难,信息搜索应向着具有分布式处理能力方向发展,本系统利用hadoop分布式开源框架良好的扩充能力、较低的运作成本、较高的效率和稳定性来满足需求。

现状:缺陷和不足:(1)结果主题相关度不高。

(2)搜素速度慢。

引入hadoop+nutch+solr的优点:(1)hadoop平台数据处理高效。

hadoop集群处理数据比起单机节省数倍的时间,数据量越大优势越明显,满足信息采集对数据处理的速度和质量要求。

(2)hadoop平台具有高扩展性.可以适当扩展集群数量来满足日益不断增加的数据量,而这并不会毁坏原集群的特性。

(3)安全可靠性高。

集群的数据冗余机制使得hadoop能从单点失效中恢复,即Hadoop能自动进行数据的多次备份,以确保数据不丢失,即使当某个服务器发生故障时,它也能重新部署计算任务。

(4) Nutch不仅提供抓取网页的功能,还提供了解析网页、建立链接数据库、对网页进行评分、建立solr索引等丰富的功能。

(5)通过Nutch插件机制实现了系统的可扩展性、灵活性和可维护性,提高了开发效率。

能够根据用户需求进行灵活定制抓取和解析,提高了系统使用性。

(6)通过solr集群,采用分布式索引在不同的机器上并行执行,实现检索服务器之间的信息交换.可以通过设定主题进行索引检索。

研究目标和内容本文的研究目标是全面深入分析研究分布式搜索引擎,进而优化分布式搜索引擎中的索引构建策略,内容包括:(1)深入研究hadoop分布式平台,仔细剖析hadoop中的分布式文件系统HDFS和map/Reduce编程模型。

(2)深入研究Nutch架构、相关技术与体系结构,着重研究分析Nutch插件系统的内部结构和流程;对protocol-httpclient插件进行开发支持表单登录;对 url过滤、信息解析插件进行开发,提高搜索的主题相关度;(实现用mapreduce的google的排序算法,改进系统搜索的关联度)。

大数据分析中的数据采集与清洗自动化工具介绍(Ⅰ)

随着信息技术的不断发展,大数据分析已经成为了企业决策和发展的重要工具。

而在大数据分析的过程中,数据的采集和清洗是至关重要的环节。

本文将介绍几种常用的数据采集与清洗自动化工具,帮助读者更好地理解大数据分析中的关键环节。

一、数据采集工具1. Apache NutchApache Nutch 是一个开源的网络搜索引擎。

它可以帮助用户获取网页信息,并将其转换为结构化的数据,方便后续的分析和处理。

Nutch 支持多种数据存储格式,包括文本、HTML、XML 等,并且可以通过定制插件来扩展其功能。

它的分布式架构和高性能使得它成为了大规模数据采集的首选工具之一。

2. ScrapyScrapy 是一个基于 Python 的开源网络爬虫框架。

它提供了简洁的 API 和强大的选择器功能,可以帮助用户快速高效地获取网页信息。

Scrapy 支持异步网络请求和自定义中间件,同时还提供了丰富的插件和扩展机制。

这使得它成为了一款非常灵活和易用的数据采集工具。

二、数据清洗工具1. OpenRefineOpenRefine(前身为 Google Refine)是一款开源的数据清洗工具。

它支持导入多种数据格式,包括 CSV、JSON、XML 等,同时还提供了强大的数据转换和整合功能。

OpenRefine 还支持实时预览和撤销操作,为用户提供了非常便利的数据清洗环境。

另外,它还支持自定义插件和扩展,使得用户可以根据实际需求定制功能。

2. Trifacta WranglerTrifacta Wrangler 是一款专注于数据清洗和转换的商业工具。

它提供了直观的用户界面和丰富的数据处理操作,可以帮助用户快速高效地清洗数据。

Trifacta Wrangler 还支持数据质量分析和自动化建模,为用户提供了一站式的数据清洗解决方案。

值得一提的是,它还支持与 Hadoop 和 Spark 等大数据处理平台的集成,为用户提供了更加便捷的数据处理流程。

nutch应用-安装与使用

nutch应用-安装与使用Nutch 使用之锋芒初试“工欲善其事,必先利其器。

”经过前文的“细解”,我们已经完成了Nutch在Windows中的安装。

接下来就让我们通过锋芒初试,来亲自体验一下Nutch的强大功能吧!Nutch的爬虫抓取网页有两种方式,一种方式是Intranet Crawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-web crawling,针对的是整个互联网,使用inject、generate、fetch和updatedb等更底层的命令。

本文将以使用Nutch为笔者在CSDN处的个人专栏(/zjzcl)文章内容建立搜索功能为例,来讲述Intranet Crawling的基本使用方法(假设用户电脑系统已安装好JDK、Tomcat和Resin,并做过相应的环境配置)。

1、设置Nutch的环境变量在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。

比如笔者电脑中JDK安装于D:\j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:\j2sdk1.4.2_09。

2、Nutch抓取网站页面前的准备工作(1)在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。

笔者在此文件中写入如下内容:/zjzcl(2)编辑conf/crawl-urlfilter.txt文件,修改部分:# accept hosts in +^/zjzcl3、运行Crawl命令抓取网站内容双击电脑桌面上的Cygwin图标,在命令行窗口中输入:cd /cygdrive/i/nutch-0.7.1不明白此命令含义的读者请参见前《细解》一文,然后再输入:bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log等待大约2分多钟后,程序运行结束。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Nutch信息抓取流程
• 1、注入种子url (org.apache.nutch.crawl.Injector) • 2、生成web数据库和segment(一个 segment代表一次爬取) (org.apache.nutch.crawl.Crawl) • 3、获取待爬取队列,并请求队列中的一个 url (org.apache.nutch.fetcher.Fetcher) • 4.解析url,提取新的链接,并更新segment (org.apache.nutch.parse.Parser)
nutch-default.xml
• <property> • <name></name> • <value></value> • <description>HTTP ‘User-Agent’请求 头.必须不是空的 </description> • </property>
Nutch爬取详细命令
• • • • • admin:创建web数据库 inject:注入种子url general:生成待下载url列表 fetch:下载网页具体内容 updatedb:更新待爬取url,主要是把当前 一轮新获取的外链加入web数据库
信息抓取主要配置文件
• • • • • nutch-default.xml nutch-site.xml regex-urlfilter.txt regex-normalize.xml domain-urlfilter.xml
regex-urlfilter.txt
• 规则:每个以‘+’或‘-’开头的没注释并 且非空白行都包含一个正则表达式
regex-normalize.xml
domain-urlfilter.xml
Thank you!
信息爬取策略
• 多线程(Fetcher) • 广度优先爬取、迭代爬取 • 待爬取url分配策略:按照域名(domain) 分配的队列机制 • 更新爬取:segmenawlDB:存储了两种实体的信息: page(网页的特征信息:如抓取时间,外 链数)和link(page直接的链接关系)。 Segment :存储爬取的网页及其索引 LinkDB:链接数据库,用来存储链接
Nutch 信息抓取浅析
主要内容
• • • • • • 1.Nutch信息抓取定义 2.Nutch信息抓取框架及主要类 3.Nutch信息抓取流程及策略 4.Nutch信息抓取的信息存储 5.Nutch信息抓取命令 6.Nutch信息抓取的主要配置文件及重要参 数
Nutch信息抓取定义
信息抓取,狭义上指向web服务器发送 请求,从而下载网页到本地的过程;广义 上涵盖了种子url的确定、dns解析、http请 求、网页内容提取、url提取与过滤等内容。 Nutch的信息抓取模式分为两种: 1.局域网抓取:网站较少,网页集中 2.互联网抓取:网站多,网页数量庞 大
nutch-default.xml
• 其他重要参数: http.timeout:http请求的时间限制 • http.max.delays:网页获取的最大重试次 数 • http.content.limit:网页内容下载限制 • db.default.fetch.interval:默认重新抓取一 个页面间隔的天数 • fetcher.server.delay:抓取器在同一服务器 的逐次请求所延迟的秒数
Nutch信息抓取框架
信息抓取主要的类
• org.apache.nutch.crawl.Injector:用来给抓取数 据库添加URL的插入器 • org.apache.nutch.crawl.Generator:用来生成待 下载任务列表的生成器 • org.apache.nutch.fetcher.Fetcher:完成抓取特 定页面的抓取器 • org.apache.nutch.crawl.CrawlDB:负责内容提取 和对下级URL提取的内容进行解析的解析器 • org.apache.nutch.crawl.LinkDB:负责web数据 库的链接管理
Nutch爬取的命令
• 1、crawl命令:完成所有抓取任务,适合局 域网抓取和小范围抓取 命令模板: bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] 相关参数: <urlDir>:包括URL列表的文 本文件,它是一个已存在的文件夹。 [-dir <d>]:Nutch保存爬取记 录的工作目录,默认情况下值为:./crawl[date],date为当前
相关文档
最新文档