locoy火车头采集教程与实例
火车头采集步骤和数据导出详解 ppt课件

4.4、已经能用Excel打开采集到的文章内容之后, 就可以利用Excel对数据进行批量处理,比如批 量添加文章的发布时间、批量替换文字、批量修 改图片路径等等。
比如:在Excel表格里,按Ctrl+F,出现的对话框 中选择“替换”,填写好需要替换的文字,即可 对采集到的内容进行批量替换文字。
4.1、安装Access
1、采集的目标页面,不需要登录 即可访问;
2、采集的内容列表页面url跟随一 定的规律改变;
3、该网站不屏蔽不干扰采集器的 工作。
2、认识火车头采集工具
火车采集器,是目前使用人数最 多的互联网数据抓取、处理、分 析,挖掘软件。
软件凭借其灵活 的配置与强大的 性能领先国内数据采集类产品。
使用火车采集器,你可以建立一 个拥有庞大内容的网站。
选中Excel表格的“内容”列,用查找功能,将图片路径 “10_12/xxxxx.jpg”替换为/10_12/xxxxx.jpg” 同时,将采集到的图片文件夹“10_12”上传到你的空间根目录,发布 文章的时候,图片就能显示出来。
火车头采集
课程内容
• 1、什么是采集源? • 2、认识火车头采集工具 • 3、火车头采集工具的使用方法 • 4、数据导出与处理
1、什么是采集源?
一些网站有大量的文章、图片、 邮箱等信息,对我们来说是一种 资源,我们可以利用工具将这些 资源采集回来,为我们所用。
这样的网站,就是采集源。
1.1 什么样的网站能成为“采集源”?
2.1、火车头采集工具的工作原理
火车采集器如何去抓取数据,取决于 您的规则。
要获取内容页的内容,首先需要先将 这个网页的网址采下来,这就是采网 址。
程序按规则抓取列表页里的内容页 url。再根据您的采集规则,将,将 标题内容等信息分离开来并保存下来。
怎么样使用火车头采集?

以采集示例详解部分功能今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则,下面开始。
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。
以下是一些采集的基本步骤,您可以灵活运用:一、建立站点1、请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。
比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina、163等)会在内容开始的部分用类似于或等标志来表示内容的开始。
他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml 的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。
上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解。
对应的页面在这:/06/1029/11/2UJNHOS3000322EL.html首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。
先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。
如图:3、内容标签讲解。
制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。
目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。
locoy火车头采集教程与实例

火车头采集教程火车头采集基本流程:系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。
1.新建站点:据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点→新建站点打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。
1,代表根据地址采内容地址,然后根据内容地址采内容。
2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。
),站点描述。
2.新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。
采集器通过运行任务来采集发布数据。
任务工作的步骤总体可以分为三步:采网址,采内容,发内容。
一个任务的运行可以任意选择哪几步。
而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点点击右键选择“从该站点新建任务”。
任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。
而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:采网址,就是从列表页中提取出内容页的地址。
从页面自动分析得到地址连接:以/book/01.45.52_P1.html页面为例。
我们来采集这个网址上的书信息。
这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。
先将该列表页地址添加到采集器里。
点击“<<向导添加”后弹出“添加开始采集地址”对话框。
我们选择“单条网址”如图:点击添加把/book/01.45.52_P1.html地址添加到下面框中,点击完成即实现增加列表地址。
如果我们选择“批量/多页”,如图:可用通配符:(*)可以代替页码变化时的地址之间的差异。
数字变化可以设置你要爬取该列表页多少页。
间隔倍数可以数字页码变化的倍数。
你也可以设置字母变化。
设置完之后点击添加按钮把列表地址添加到下框中,点击完成即可完成列表地址设置。
你也可以选择文本导入和正则提取在这里就不一一讲了,因为这二种基本用的很少。
火车头信息采集器的使用说明

1、下载的压缩包,随便找个地方解压缩就好,不需要安装。
2、点击文件夹里的文件,执行程序,会打开该软件的主界面;如果有提示出错而打不开,那么是你的电脑缺乏软件所需要的环境,请到下面这个网站/去下载.net框架(红色字链接,直接下载安装就好)3、以聚美优团为例,首先新建一个任务,名字为聚美优团网页编码选择utf-8,这个是很多网站都用到的文字编码,减少乱码。
4、打开聚美优团的网站,发现有过往团购的历史,点击下一页后,其网页地址为:/i/deal/deals?filter=2-0-0-0,再翻一页,其网页地址为:/i/deal/deals?filter=3-0-0-0。
所以推测其规律为:/i/deal/deals?filter=*-0-0-0,*表示一个不断递增的自然数参数。
5、起始网址现在为空,点击旁边的添加,出来一个对话框,选择批量多页选择页数的那个数字,选中它后,然后点击右边的蓝色*符号,于是这个网址变成:大家注意看,输入框内的*符号变成绿色粗体的了,而且下面出现了按照这个规律递增的5个网址。
这里作为实例,我们就选一个比较小的数字,而实际爬取的时候,根据实际情况修改选项中的起止数字。
6、点击网址旁边的“添加”按钮,然后在下面会出现一个表达式,这个是自动生成的,不用修改。
然后点击完成,返回编辑任务对话框。
7、点击第二步,进入采集信息设置的地方,在这里需要确定我们在这个页面上要采集哪些数据我们回到聚美优网上,看看我们需要什么数据:有时间、原价、折扣、现价、节省,虽然没有明确的团购人数,但是有个收货短评和口碑报告,我们这里就来看看怎么采集这些信息吧。
在网页上点击右键,查看源代码,会看到很多html格式的源代码,我们找到表示这个商品的地方然后我们来看:是时间是收货短评这些就是我们需要的信息在代码里的情况,我们把这些前后字符串一一设置到软件里。
8、设置信息的前后代码符号(刚开始的时候,这个表格是空白的)点击添加,出现这样的对话框:我们要做的就是填写标签名,选择循环匹配,然后把想要信息的前后字符分别粘贴到开始字符串和结束字符串两个框框里,然后点确定。
火车头采集器应该如何使用

关于火车头使用方法目录目录 (2)一、原理描述 (3)1.火车采集器数据抓取原理: (3)2.火车采集器数据发布原理: (3)3.火车采集器工作流程: (3)二、术语解释 (4)三、下载地址 (5)四、安装升级与卸载 (6)五、操作步骤 (7)一、原理描述1.火车采集器数据抓取原理:火车采集器如何去抓取数据,取决于您的规则。
您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。
程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。
再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。
如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
2.火车采集器数据发布原理:在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。
因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。
程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。
您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4、保存为本地文件。
程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
3.火车采集器工作流程:火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。
这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。
这个过程是获得数据的过程。
我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。
可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。
比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。
火车头采集教程

首先打开火车头程序,在此之前,确认电脑已经安装.Netframework2.0点击新建---》分组输入分组名称然后保存选中你刚才新建的分组,鼠标右键,新建任务点击添加,然后选中多页打开这个界面后,需要注意下面几个地方第一个是要输入你需要采集的文章列表页。
以/slgxbyun/slgzl_slgzlby_2.html为例子,可以看下,点击网页的上一页和下一页,可以看出/slgxbyun/slgzl_slgzlby_3.html页面变化的是最后的一个数字,这个数字可以用界面里的通配符(*)代替。
把通配符给放上去以后,软件就会自动获取需要采集的网页了。
可以注意下,在等差数列有几个参数:首页、项数、公差。
首页就是文章列表页的开始页码,例子里开始的数值是1,所以这里不动他。
项数是你想采集多少页的量。
如果你想采集2页,那这个项数就是2。
公差就是每页之间的变动量,就是刚才说的,上一页,下一页,之间的变动量,例子里的变动是1,这里也就不动了。
然后选择其中的一个列表页,点击添加,完成。
现在已经获取到了列表页的内容,下面需要设置要采集的内容。
点击添加然后需要设置2个部分,一个是采集的开头,一个是采集的结束这个需要到我们一开始实例的网址页面去找。
找列表页的开始部分和结束部分。
在页面里鼠标右键,查看源代码。
然后我们看一下,我们需要采集的内容只是这一段代码然后我们就需要告诉采集器,我们要采集的是这些东西。
所以就要设置一个开始,和一个结束。
我们一定要注意,这个开始部分的代码和结束部分的代码,一定是要这个源代码里唯一的,这样才能让采集器正确的采集到我们想要采集的内容。
所以要把这2段代码分别放在开始部分和结束部分里。
然后点击保存。
然后回到这个界面,你可以点击,测试网址采集,查看你刚才是不是采集到了这些列表内的文章。
如下图所示。
然后随便选中一条内容页的链接。
双击,进入第二步,内容页的采集部分。
在这里需要注意2个地方,一个是标题的采集,一个是内容的采集。
火车头采集器采集文章使用教程实例
⽕车头采集器采集⽂章使⽤教程实例任务:采集某⼀个指定页⾯的⽂章包括(标题、图⽚、描述、内容)导⼊到⾃⼰⽹站数据库对应栏⽬(栏⽬id为57),数据库字段分别(title,thumb,descrption,content)。
页⾯⾥⾯第⼀张图作为⽂章缩略图,这边⼀个获取缩略图名称并添加上对应⽹站路径放⼊数据库thumb字段,另⼀个是下载下本地,统⼀上传到指定⽂件夹,(当然看软件可以直接ftp,⽬前还没弄,后期弄了会补充)1、新建分组--新建任务2、添加⽹址+ 编辑获取⽹址的规则选择范围在 ul ⾥⾯的 li ⾥⾯的链接,注意排除重复地址,可以点击下⾯测试⽹址采集获取。
可以看到有采集到的⽂章链接了。
3、采集内容规则我这边需要采集下⾯图上展⽰数据(catid是栏⽬id,可以将采集到的数据放⼊对应栏⽬,设置固定值就好)着重说下内容和图⽚的采集,标题和描述同理内容采集内容采集:打开⼀个采集的⽂章页⾯,查看源代码(禁了右键的f11 或者在⽹址前⾯加上 view-source: ⼀样可以查看):选中⽂章开头⼀个位置,截取⼀段在ctrl+f 搜下是否唯⼀⼀段,若是就可以放在位置下图1处,结尾同开头⼀样。
我截取内容不想⾥⾯还带有链接图⽚可以数据处理,添加--html标签排除--选好确定--确定还有需要下载页⾯图⽚,勾选和填写下⾯选项图⽚采集:(1)选中范围和内容⼀样(⽂章内图⽚)(2)数据处理选提取第⼀张图⽚内容是:/2017/33/aa.jpg(3)只要aa.jpg,正则过滤 ,获取内容:aa.jpg (4)数据库存储有前缀,添加上, upload/xxxxx/找⼀个页⾯测试⼀下,可以看到对应项⽬都获取到了。
4、发布内容设置,这⾥以⽅式三发布到数据库为例⼦,编辑后回到这边勾选刚定义的模块就好:5、我需要保存图⽚到本地,要设置下保存⽂件的路径(ftp后续会试着使⽤)。
6、保存,查看刚新建的任务,右键开始任务运⾏,这边就可以看到⽂字和图⽚都下载下来了,数据库⾥⾯也可以看到了。
火车头采集器教程演示文稿
三、采集网址
点击向导添加后出现如下界面:批量/多页
三、采集网址
单条网址选项下:
三、采集网址
填写完成后,点击“完成”。则出现以下界面:
三、采集网址
注释: 1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、 视频、flash等),内容丰富并且在业界有一定权威性的站点。 2、过于滞后的文章不要采集。(例如:08年、09年的文章) 3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效 率会事半功倍。 4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的 静态页。 5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。
四、采集内容
第五、责任编辑
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 自己的名称,点击确定,责任编辑设定完成。
四、采集内容
第六、信息来源
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写 信息来源,点击确定,信息来源设定完成。
四、采集内容
第七、分页
四、采集内容
第四、信息关键词、meta关键词
查看本页面“源文件” 搜索keywords代码,找到文章关键词部分。如下图:
四、采集内容
將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字 符段中,点击确定,信息关键词和meta关键词标签设置完成。
注释:有些文章关键词部分设有大量广告语或与本文无关的内容,这样的文章关键 词我们不给予采集。可以将标题的采集方法复制到关键词采集中。
四、采集内容
第二、资讯内容
查看本页面“源文件”,找到文章内容部分。如下图:
火车头采集软件使用教程(图文版)
火车采集器V2010SP3版(实现内容自动更新的采集软件)前提:本软件要求电脑安装net framework2.0或2.0以上框架支持。
一、火车采集器V2010SP3版,可供下载地址:/Down/LocoySpider/LocoySpider2010SP3.html二、net framework2.0,可供下载地址:/download/-Fra mework-2.0-For-Win98SE-ME-2000-XP/火车采集器和net framework2.0安装好后,可进行如下操作,操作步骤为:一、1.在一堆文件中,找到如下图标(画有红方框、状似火车头的),并双击打开。
2.打开后可以看到如下界面,看着很复杂,但对于新手而言很多东西是暂时用不到的。
在界面空白处(如下图红框区域内)右击,选择箭头所指“新建站点”。
输入站点名,例如:“西装”,保存即可。
3.在新建站点“西装”(红框区域)处选中再右击,选择从该站点新建任务。
二、第一步:采集网址规则1.先要找到自动更新的内容来源:如经常更新关注度较高的博客、专业网站等,这里我们就拿淘宝论坛举个例子。
找到开始采集地址栏右侧,点击向导添加。
2.添加开始采集地址中的多页类似地址形式前,要分析一下它的类似形式,例:我们在淘宝论坛中搜索“西服”相关内容,然后任意翻阅不同的页数查看它的网页地址。
第一页地址、第二页地址、第三页地址分别为:以此类推,分析出其不同点在于上图红框处的数字变化,因此:假如我们只采集论坛的第一页,就在多页类似地址形式栏粘贴第一页的网址,按一下(*)将选中的数字1替换成(*),再将数字变化改为相应页数:1, 然后点击添加、完成。
3.接着,找到如下图的相应位置分析规则并分别输入:必须包含“thread”,不得包含“post|pc”,任务名:这里设为“第一页”。
【可以点击开始测试网址采集,检测一下是否将网页都采集过来了。
若要返回到刚才上一级页面,点击返回修改设置即可。
火车采集器使用简明教程精品PPT课件
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
You Know, The More Powerful You Will Be
结束语
感谢聆听
不足之处请大家批评指导
进入搜索页网址
进入内容页网址
内容页的网址往 往构造结构相似
不同内容页的网 址上所需要的信 息的展现格式往 往也是相似的
搜集所需要的信息 存储到本地
实例:爬取豆瓣上含有某个关键词的电影
注意:该网址为起始页网址 该链接为起始页包含的内容页网址
第一步:新建任务,进入编辑状态
右键,点击 新建任务
第二步:输入起始页网址和内容页网址规则
Please Criticize And Guide The Shortcomings
讲师:XXXXXX XX年XX月XX日
方便我们进行观察。也可在网 址空白处右键查看网页源代码。
找到电影链接(大多为href=的
格式),观察发现链接格式为 /subject/电影 id号,对其他电影的链接进行观
察发现也符合此规律
按照寻找的规律进行尝试
右边这个编辑框为链接必 须包含的字符串,输入我
们刚刚发现的subject
第二步:进入内容页,确定爬取标签
点击+号新建一个标签, 这个标签即为我们想要 爬取的信息类别,这里
以电影名称为例
右侧的数据获取方式即
为我们爬取的信息在内 容页网址的存在规律
如何确定爬取信息在网页的存储规律?
利用前面讲到的审查元 素,找到电影名称在网 页源代码里对应的位置
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
火车头采集教程火车头采集基本流程:系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。
1.新建站点:据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点→新建站点打开如下图:可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。
1,代表根据地址采内容地址,然后根据内容地址采内容。
2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。
),站点描述。
2.新建任务:任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。
采集器通过运行任务来采集发布数据。
任务工作的步骤总体可以分为三步:采网址,采内容,发内容。
一个任务的运行可以任意选择哪几步。
而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点点击右键选择“从该站点新建任务”。
任务的编辑界面如图:采集器的使用最主要的就是对任务的设置。
而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:采网址,就是从列表页中提取出内容页的地址。
从页面自动分析得到地址连接:以/book/01.45.52_P1.html页面为例。
我们来采集这个网址上的书信息。
这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。
先将该列表页地址添加到采集器里。
点击“<<向导添加”后弹出“添加开始采集地址”对话框。
我们选择“单条网址”如图:点击添加把/book/01.45.52_P1.html地址添加到下面框中,点击完成即实现增加列表地址。
如果我们选择“批量/多页”,如图:可用通配符:(*)可以代替页码变化时的地址之间的差异。
数字变化可以设置你要爬取该列表页多少页。
间隔倍数可以数字页码变化的倍数。
你也可以设置字母变化。
设置完之后点击添加按钮把列表地址添加到下框中,点击完成即可完成列表地址设置。
你也可以选择文本导入和正则提取在这里就不一一讲了,因为这二种基本用的很少。
手动填写连接地址规则是将需要的网址用参数来获得并组合成我们需要的网址。
这个好处是处理网址那块有规律的网址很好处理,但要是没规律,和周围的一样的话,就不好处理了。
我们以/book/01.45.52_P1.html为例. 看图里的设置:这样设置就可以获得内容页网址了,这个网址是从摘要那块获得的,那一块的代码都是一个样式,所以可以。
你看上图的话,会发现在参数那里有个缩略图,因为有的文章是将缩略图放在列表里的。
现在我们举个例子。
看这个/dz/,这个是电影的,有小图的,我们看一下怎么获得这个图片。
注意,这里是同时获得网址和缩略图的。
这样设置就可以获得真实网址了,这个网址是从摘要那块获得的,那一块的代码都是一个样式,所以可以。
你看上图的话,会发现在参数那里有个缩略图,因为有的文章是将缩略图放在列表里的。
现在我们举个例子。
看这个/dz/,这个是电影的,有小图的,我们看一下怎么获得这个图片。
注意,这里是同时获得网址和缩略图的。
在脚本规则里输入 [缩略图] 下边即出现无缩略图的提取内容中的第一张选项,将该项选中即可,再将[缩略图] 这几个字符去掉。
如果您需要下载该图片,请选中将缩略图下载到本地。
如果您不使用手动链接地址规则获取网址,将启用自定义格式得到地址选项去掉即可。
注意事项:该功能只提取内容标签中的图片,所以请确保您要提取的图片在内容标签中。
同时。
如果内容标签中选了下载图片,则提取的图片也是下载到本地的图片地址。
因为网址和缩略图那块的样子就是下边的,是有规律的,所以可以获得网址如果我们遇到那些用脚本做栏目列表时怎么办呢?用自动识别是不行的了。
这时,该使用手动设置链接格式这个功能起作用了,这也是针对脚本类网址最好的解决办法。
下边我们以腾讯Flash频道_作品列表为例来讲一下/classlist/listwork_1000130000_1.shtml你用自动获取网址是得不到什么地址的.我们仔细分析地址:/classlist/listwork_1000130000_1.shtml源码后就会发现,这个是这个样子的网址/cgi-bin/viewwork?id=727749 ,只有最后的数字是不同的,而这数字就包含在脚本里边,我们看一下源码:注意:new Array("727749",后边就有我们要的网址,还有缩略图,我们可以这样写规则:这样就可以了,看一下效果OK了。
4.采集内容:当所有网址抓取完后就可以开始抓取内容。
抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的标签规则设置匹配出相应的数据。
在测试到的地址中,任意选择一个子地址,双击选中的地址或者点击“测试该页”按钮。
如图:将会跳转到任务中的“第二步:采集内容规则”如图:在典型页面中会出现刚才选中的网址,这里就是测试采集内容。
左边的标签名下面有:标题,出版社,图片,图片地址共四个标签,可以对标签进行添加、删除和编辑等操作。
每个标签就是采集后得到的一段内容,可以是从页面中截取的内容,也可以是设置的一个固定的值或其他方式得到的值。
现在让我抓取/product.aspx?product_id=9188924&ref=book-02-L地址中的标题,查看该页的HTML源代码。
在源代码中可以找到页面中的问题部分。
如图:可以从网页HTML源代码里得到需要的标题(工程硕士研究生英语基础教程(学生用书))。
复制页面HTML中“<span class="black000"><a name="top_b k"></a>”后在文本中向上查找发现查找不到与该段相同的代码,说明此处是该段代码第一次出现的地方。
如图:选择标题标签,点击右边的“编辑标签”按钮打开如下图:复制这段代码到“内容标签编辑框”的“开始字符串处”。
“</span>”是“<span class="black000"><a name="top_b k"></a>”后面第一次出现的地方。
复制“</span>”到“结束字符串”处。
如图:如果发现标题中含有“<ca><pre><\pre><\ca>”像这样的HTML代码,可以在标签设置里将这些没用的代码排除。
设置如图:在此对话框中可以设置标签内容必须包含什么和标签内容不得包含什么。
上面的(*)可以代表为任何字符。
在这里还可以设置汉英翻译,简繁体互转:火车采集器可以将抓取的汉字翻译成英语,方便一些朋友翻译用或做国外网站.同时支持将简体和繁体进行转化,方便简繁体用户交流.汉译英,简体转繁体使用很简单,只要在标签内选中即可.如果“使用正则匹配模式”采集数据:正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。
火车采集器里支持两种正则,一个纯正则,一个参数正则。
我们下边分开讲一下:1.纯正则:在标签中用正则表达式采内容的格式是这样:开始代码(?<content>正则表达式)结束代码,其中在开始代码和结束代码中如有需要转义的字符就要用\转义。
比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写然后就可以获得我们需要的版块名称了。
2.参数正则:这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。
输入框两边都不得为空,后边的组合结果[参数N] 是按匹配内容的顺序来写的,我们还是以/为例,来获得栏目ID和栏目名称。
测试一下,是可以获得我们需要的结果了。
正则基本就这样,主要是写表达式的问题。
如果您对这有兴趣,可以下载相关一些资料研究一下。
设置完之后点击“确定”按钮后点“测试”按钮得到页面中的数据。
如图:看下面我们怎么样下载图片到本地来:现在让我抓取/product.aspx?product_id=9188924&ref=book-02-L地址中的图片。
查看该页的HTML源代码。
在源代码中可以找到页面中的问题部分。
如图:发现“<div class="book_pic">“是唯一的,复制这段代码到“内容标签编辑框”的“开始字符串处”。
“</div>”是“<divclass="book_pic">”后面第一次出现的地方。
复制“</div>”到“结束字符串”处。
火车采集器的所有版本均支持下载图片。
这里所说的图片是源代码里的有<img标签的图片地址。
所以只要您采集的源代码里有这这样的图片代码,采集器会将其中的图片下载到本地。
如果是一个直接的图片地址,如/logo.gif ,采集器是会做为文件下载。
下载文件是需要收费版本支持。
图片的下载设置如下:1.在内容页标签编辑框中选中下载图片。
2.任意格式文件下载及保存设置收费版本的程序支持任意文件的下载。
具体是使用时选中探测文件并下载即可。
需要注意的是:这个功能可以下载论坛附件或要下载站的文件,比如论坛附件下载地址是d.asp?id=1,那么只要在下载文件地必须包含里写上d.asp就可以下载源码里包含这个字符串链接中的附件了。
注意这个在有些站是需要你登陆后才可以下载。
所以有时下载不了,请注意您是否登陆或是有权限下载那些文件。
还有的情况是你获取的登陆信息不正确,相当于没登陆.也会导致下载不成功。
如果使用单一的地址,比如直接是一个文件的地址,程序会自动去下载并判断文件类型。
如果是多个文件实际地址请用分隔符#||# 相连,程序会分别进行下载.在下载前请做好测试。
具体在规则测试那里可以看到下载结果。
3.设置保存目录:文件的命名:为了防止同一目录下保存太多的文件,采集器支持随机目录保存方式,默认按时间按一定的规则生成目录保存文件。
看图,注意这里的绿色符号都是用特殊含义的,yyyy代表是年,如最后产生的就是2009,MM是月,其它类推,如果你要命名为yyyy,则需要对绿色字符进行转义,即\y\y\y\y,前一个斜杠即可.文件保存地址也一样.可以设置同步(边下内容边下图片),异步(下完内容在下图片)。
设置好图片保存目录后,便可以点击“确定”按钮后点“测试”按钮可以把图片下载到本地来,如图:测试之后得到的图片保存在\Data\TestOnly文件下。
采集保存到你设置的目录下面。
看下图:在上面也可以选择“使用自定义固定格式的数据”具体怎么实现这这里不讲了,因为很少选择它。