火车头使用教程

火车头使用教程
火车头使用教程

查看此教程建议视图:

因为包含很多图片,其他视图导致图片查看不全。

解压后看到的文件有:

其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。

1,上传接口

根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改:

就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。

然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站

别人怎么知道你的根目录是什么,不知道就自己去查。

然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码:

如果能出现论坛的模块就证明接口是对的了。

2,导入发布模块

点击发布按钮:

打开配置界面(有些慢,稍等下):

成功导入后会有提示的。发布模块设置:

第一步,选择我们刚才导入的dz发布模块。

第二步:全局变量就是上面说的接口文件密码

第三步:选择对应的编码

第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。然后选择“不需要登录&Http请求”

第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。

设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用,

简单分布,只发布标题内容回复的情况

我们打开发布模块,来介绍下里面的内容:

点击编辑按钮,到“内容发布参数”选项卡:

介绍下表单名:

?username:对应的论坛发帖和回帖的用户名

?subject :对应的是论坛的标题

?message :对应是发布的帖子主题和回复内容,这2部分是放到

一起的

?fid :对应的是版块ID

?signature :发帖人和回复人的签名内容,这里也是放在一起的

?publishdat:发帖和回帖的时间,同样2部分是放在一起的

?typeid :对应的是主题分类的ID

?typename:对应主题分类名,我们写了上面的分类ID,这里就可

以不用设置值了,表单值留空即可。

?sortid:对应的是分类信息的ID

?fanme:对应的是版块的名称,同样上面设置了fid的值,这里

的值就可以不用设置,表单值留空即可

?avatar:发帖人和回帖人的头像信息,同样的2部分是放到一起

?tags:发帖的时候设置的标签

假如我们不需要那个表单值,比如我们不需要signature,我们按照上图选中这个,然后点击“修改表单值”,把表单值这里设置为空就可以了如下图:

然后同样的办法处理我们别的不要的表单如下图我把typeid,typenam等等表单我都不需要,我就用上面的办法把他们的表单值设置为空就可以了:

当然了你自己需要什么表单,自己选择啦。

我们把测试规则导入到采集器里面,来说明下规则设置:

在第二步:采集内容规则,我们直接点击右侧的“测试”按钮,看下采集到的内容,这个规则是采集dz官方论坛。

因为是采集论坛所以内容标签采集到结果是帖子内容和回帖内容,作者标签采集到的是发帖用户名和回帖用户名,头像和时间以及签名,都是发帖人和回帖人的相关信息的组合。

采集到的作者,接口为自动注册的。

要用到标签循环右侧“标签循环处理”分隔符必须写“||||”,右侧信息看到结果都是用“|||”连接各个信息的。

说下头像这个标签,一个用户的头像一定是“头像图片地址用户名”这样组合在一起。

规则如何设置就看自带的规则,不需要的标签删掉就可以了。需要加的标签添加上,总之规则里的标签和发布模块里的标签一一对应,标签名要一致。

好没有看到在发布模块那里看到内容标签其实发布模块里的{0}就代替了,参考:https://www.360docs.net/doc/122510937.html,/spider-75522-1-1.html

都设置好了就在规则里面使用如下图:

接口扩展说明:

接口注册的用户名密码设置,打开接口:

这里设置的就是新用户注册的密码,我设置的是12346,那么所有接口注册的用户的登录密码都是123456

如果留空的话,新注册的用户名密码就是:把用户名和密码参数连接起来,md5下,取后面的12位,上图用户密码下面就是用户名密码参数,是可以设置的。

回复用户名如果没有采集到就用接口里面设置的用户名如下图:

这些是可以修改的。

接口里面有个映射关系如下图:

意思就是我们建立一个标签名为fname,如果采集到的是“版块1”,那么就发布对应的版块id是1的版块里面,这个可以根据自己论坛版块进行修改。

下面的typname也是同样的。

这样设置的好处就是不需要设置分类id直接通过版块名称和主题分类名称自动对应上。

火车头操作手册-Mg

火车头操作手册

目录 前言 (1) 摘要 (2) 第一章基础知识 (3) 1.1 HTML 基础知识 (3) 1.2 采集基础知识 (5) 1.3发布基础知识 (5) 1.4正则基础知识 (7) 第二章火车头采集篇 (11) 2.1 什么是信息采集? (11) 2.2 火车头采集器的采集工作流程 (11) 2.3 数据的转储 (20) 第三章火车头发布篇 (24) 3.1火车头发布内容的介绍 (24) 3.2 接口文件的介绍.................................................................... 错误!未定义书签。 3.3 发布模块的制作 (26) 第四章应用进阶 (38) 4.1 火车头+PHP程序 (38) 第五章防采技术介绍 (40) 5.1 采集器与搜索引擎蜘蛛的区别 (40) 5.2 防采集的一些主要措施 (40) 5.3 火车头官方谈采集与防采 (42) 5.3.1、谈火车头采集器的由来 (42)

前言 随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。因此员工学习手册的编写,势在必行。 员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。 在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。在这里我们要感谢吉总,是他为大家带来了“火车头”。

火车头使用教程

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 解压后看到的文件有: 其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。 1,上传接口 根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改: 就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。 然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站

别人怎么知道你的根目录是什么,不知道就自己去查。 然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码: 如果能出现论坛的模块就证明接口是对的了。 2,导入发布模块 点击发布按钮: 打开配置界面(有些慢,稍等下):

成功导入后会有提示的。发布模块设置:

第一步,选择我们刚才导入的dz发布模块。 第二步:全局变量就是上面说的接口文件密码 第三步:选择对应的编码 第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。然后选择“不需要登录&Http请求” 第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。

设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用, 简单分布,只发布标题内容回复的情况 我们打开发布模块,来介绍下里面的内容: 点击编辑按钮,到“内容发布参数”选项卡: 介绍下表单名: ?username:对应的论坛发帖和回帖的用户名 ?subject :对应的是论坛的标题 ?message :对应是发布的帖子主题和回复内容,这2部分是放到 一起的 ?fid :对应的是版块ID ?signature :发帖人和回复人的签名内容,这里也是放在一起的

火车头使用说明

火车头使用说明 别的不说了,直接开始使用。(ps:开始之前,最好把爬虫的原理了解一下) 咱们用的是免费版,功能什么的很多受到限制,免费版网页只能抓到两级,而且无法定时执行任务。 1、安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接 点击登录就进入了主界面,主界面如下: 你会发现它有一些内置的分组,分组下面有内置的测试任务,这里要强调一点,每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹,里面放着各自的数据文件,大概内置测试任务有38个,所以data目录下有对应从1到38的38个文件夹,你以后新建任务后,会自动再data目录下建立文件夹,序号依次递增。 2、新建任务和分组。你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一 点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名字叫做腾讯的分组。 3、右键单击腾讯,选择新建任务,弹出新建任务对话框

4、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻 可以看到,这里分为四步,第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url 并且入队的过程),在出现的起始网址,添加单条网址,并点击”添加“按钮。

我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址 最后点击完成,查看效果

起始网址的添加就是种子URL的设置过程,这里可以添加多个种子URL,我这里设置了六页下面就是多级网址获取,点击添加按钮,出现如下画面(这一步相当于提取网页所有连接的过程) 如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,所以需要对链接进行过滤,可以从该选定区域提取网址,也可以对结果网址过滤,这里我们设置结果网址必须包含https://www.360docs.net/doc/122510937.html,/a,然后点击保存。

火车头LocoySpider发布模块制作(dede5.7)图文教程

火车头发布模块制作(dede5.7)图文教程 说明:为方便大家更好的学习和掌握火车头采集器((LocoySpider)自定义发布 模块的制作,本人通过火车头采集器((LocoySpider)安装配置教程以具体的实例用图文教程的方式全面介绍火车头采集器((LocoySpider)自定义发布模块的制作的方法和技巧,方便大家学习和使用。如果有兴趣登陆可视教程论坛在线学习和观看火车头采集器((LocoySpider)自定义发布模块的制作入门到精通视频教程. 本文以图文方式全面详细介绍火车头采集器((LocoySpider)为dede5.7量身制作自定义发布模块。 一、打开抓包工具Fiddler2汉化版 二、打开ie,登陆https://www.360docs.net/doc/122510937.html,/dede/后台 用管理员登陆dede后台。抓包工具有如下数据:

找到其中的login.php文件:如下 上图右边红框内容如下: POST https://www.360docs.net/doc/122510937.html,/dede/login.php HTTP/1.1 Host:https://www.360docs.net/doc/122510937.html, User-Agent:Mozilla/5.0(Windows NT6.1;WOW64;rv:28.0)Gecko/20100101Firefox/28.0 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding:gzip,deflate Referer:https://www.360docs.net/doc/122510937.html,/dede/login.php?gotopage=%2Fdede%2Findex.php Cookie:menuitems=1_1%2C2_1%2C3_1%2C4_1;cyan_uv=C62149898D900001D7B51A6E683024D0; lastCid=3;lastCid__ckMd5=86ae82e846e9c1b1; ENV_GOBACK_URL=%2Fdede%2Fmychannel_main.php;PHPSESSID=v806m80pcefgmsmgvlcgao5u66 Connection:keep-alive Content-Type:application/x-www-form-urlencoded Content-Length:106 gotopage=%2Fdede%2Findex.php&dopost=login&adminstyle=newdedecms&userid=admin&pwd= hncctv&validate=rug1&sm1= 三、打开火车头,并新建发布:设置网站自动登陆

爱站关键词采集器使用方法

https://www.360docs.net/doc/122510937.html, 爱站关键词采集器使用方法 本文介绍使用八爪鱼采集爱站关键词的方法。作为一个站长使用比较频繁的工具,爱站具有长尾关键词的挖掘功能,这些关键词对于做SEO 的朋友来说是非常有价值的。将需要的关键词采集下来,对于网站内容的生产方向,网站结构的规划, TDK 的编写都是非常有用的。 采集网站: 本文仅以采集“旅游”、“旅游攻略”、“旅游景点”这三个词采集长尾关键词举例说明。大家可根据自身需要,更换不同的关键词进行挖掘长尾关键词。 使用功能点: ● 文本输入登录方法(7.0版本) https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/srdl_v70.html ● 验证码登录 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/kjsb7.html

https://www.360docs.net/doc/122510937.html, ●数字翻页 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/szfy_7.html ●文本循环 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/wbxh_7.html 步骤1:创建爱站关键词采集任务 1)进入主界面,选择“自定义模式”,点击“立即使用” 2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

https://www.360docs.net/doc/122510937.html, 步骤2:登录爱站工具 1)系统自动打开网页, 进入爱站关键词挖掘页面。点击“登录”按钮,选择“点击该链接”,进入爱站工具登录页面。

https://www.360docs.net/doc/122510937.html, 2) 在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。点击账号输入框,选择“输入文字”

火车头采集器-采集与发布带图片的文章

如何使用火车头采集器 火车头采集器7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采集程序下载到本地,放在一个约定好名字的文件夹中,最后人工上传到服务器DZ程序运行目录下的pic目录下。下载火车头采集器7.6版本LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是Discuz!X 2.5 GBK版本。 核心工作有两部分:1、采集,2、发布。 本文重点说如何发布(带图片、排版),简单说如何采集。 一、新建一个使用UBB格式的Web在线发布模块 因为采集下来的文章内容是HTML格式,如:正文 这样带有HTML标签的文本。 而DZ论坛使用的是UUB格式,如:[p]正文[/p],所以在发布时要做一个自动转换。下面就是设置这个自动转换功能。 如果你的文章发布的DZ门户,就不需要转换为UBB. 1、打开发布模块配置: 2、以软件里自带的Discuz!X 2.0论坛为模板进行修改。我试过了可以正常住Discuz!X 2.5发布文章。 3、设置为:对[标签: 内容]做UBB转换,如下图中的样子: 最后,另存为一个新的“发布模块”,起一个新名字,后面要使用。

4、在“内容发布参数”选项卡中修改:[标签: 内容] 的值可以用使用{0} 来替代。如下图: 黄色框内的[标签: 内容]替换成{0},如下图

第一部分工作就完成了。 二、使用Web在线发布模块 前面我新建了一个新的Web在线发布模块,下面就是使用它。第一步:新一个“发布”,操作如下图:

注意:请到论坛的后台修改设置,要求登录时不需要输入验证码,才能登录成功,才能测试成功,记得以后要改回来啊。 最后保存时要起个新名字。 三、准备采集 这里以火车自带的采集演示来说明。鼠标右击“腾讯新闻”—“编辑任务”,打开如下窗口。 如下图设置,使用前一步建立的“发布模块”,可以把采集到的内容发布到论坛的某个栏目中。 设置如下图:

火车头经典教程

怎么样使用火车头 下载地址:https://www.360docs.net/doc/122510937.html,/Down/我们下载免费版。。。。 注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本 .net framework 2.0下载地址: 那么,火车我们也下载到本地了,。net框架,我们也安装了。。。 那么,我们把新下载的火车采集软件,解压下。。。 看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。 上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。

ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。 我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。 我们先补习一下,火车头采集软件的工作原理。。。 因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html 的源码,那么火车头为什么会采集到内容呢? 我们看下网站的基本结构。。。 -------这些蓝色的东西,对于新手,我们不需要知道! 网页的标题 ----红色的是网页的标题。。。如下图(1) 内容在这个和之间的,是网站的内容部分。。如下图(2) ----------这里是网站的结尾。。。。

locoy火车头采集教程与实例

火车头采集教程 火车头采集基本流程: 系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。 1.新建站点: 据你自己的需求为任务建立统一的站点,以方便管理。 点击菜单上:站点→新建站点打开如下图: 可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。1,代表根据地址采内容地址,然后根据内容地址采内容。2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。),站点描述。 2.新建任务: 任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。 选择站点点击右键选择“从该站点新建任务”。任务的编辑界面如图:

采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。3.采集网址: 采网址,就是从列表页中提取出内容页的地址。 从页面自动分析得到地址连接:以https://www.360docs.net/doc/122510937.html,/book/01.45.52_P1.html页面为例。我们来采集这个网址上的书信息。这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。 先将该列表页地址添加到采集器里。点击“<<向导添加”后弹出“添加开始采集地址”对话框。我们选择“单条网址”如 图: 点击添加把https://www.360docs.net/doc/122510937.html,/book/01.45.52_P1.html地址添加到下面框中,点击完成即实现增加列表地址。 如果我们选择“批量/多页”,如图:

火车头采集模块

最全面的火车头采集模块、发布模块制作教程(织梦V5.7) 应一个朋友的要求,想做一个关于火车头采集和发布模块的教程,采用的系统是织梦5.7版本。准备做的是视频语音教程,但是由于中间出了一些意料之外的问题,不得不改为图文了,顺便发到博客上面。 先说一下准备工作,我安装的是全新的织梦5.7。 使用到的软件:1、HTTP Analyzer Stand-alone V5.2.1.212;2、火车头采集器2010SP3免费版采集网站:https://www.360docs.net/doc/122510937.html,/society/的“社会与法”栏目。 发布网站:https://www.360docs.net/doc/122510937.html,/(本地)。 一、采集模块的制作 其实采集模块的制作比较简单,具体操作步骤如下: 1、新建站点 点击火车头主界面“站点(S)”—“新建站点”,在弹出的“新建站点”界面中,站 点名命名为新浪,点击保存即可。 2、新建任务 a)在“站点任务列表树”一栏,选中刚添加的“新浪”并且鼠标右键,选中“从 该站点下新建任务”,弹出“新建任务窗口”。 b)“采集网址深度”选1(默认即为1),其它默认。 c)点击“开始采集地址”右侧的“向导添加”,在弹出的“添加开始采集地址” 窗口中选中“单条网址”,在里面输入我们要采集的网址 https://www.360docs.net/doc/122510937.html,/society/,点击“添加”,点击“完成”。 d)下面一步是比较重点的一步了,打开我们要采集的新浪新闻的这个页面: https://www.360docs.net/doc/122510937.html,/society/,右键查看其源码,在源码中找到我们想要采 集的那部分的源码,如图所示,标红的这块,其实就是我们需要采集的网页内 容的一个列表。 e)https://www.360docs.net/doc/122510937.html,/kmche/ f)https://www.360docs.net/doc/122510937.html,/kmesdiandongche/ g)在火车头的“页面内选定区域采集网址”的“从”编辑框中填入标红这块最近 的上方唯一源码标示,我这里选择“

火车头采集软件使用教程(图文版)

火车采集器V2010SP3版(实现内容自动更新的采集软件) 前提:本软件要求电脑安装net framework2.0或2.0以上框架支持。 一、火车采集器V2010SP3版,可供下载地址: https://www.360docs.net/doc/122510937.html,/Down/LocoySpider/LocoySpider2010SP3.html 二、net framework2.0,可供下载地址: https://www.360docs.net/doc/122510937.html,/download/https://www.360docs.net/doc/122510937.html,-Fra mework-2.0-For-Win98SE-ME-2000-XP/ 火车采集器和net framework2.0安装好后,可进行如下操作,操作步骤为:一、 1.在一堆文件中,找到如下图标(画有红方框、状似火车头的),并双击打开。 2.打开后可以看到如下界面,看着很复杂,但对于新手而言很多东西是暂时用不到的。在界面空白处(如下图红框区域内)右击,选择箭头所指“新建站点”。输入站点名,例如:“西装”,保存即可。 3.在新建站点“西装”(红框区域)处选中再右击,选择从该站点新建任务。

二、 第一步:采集网址规则 1.先要找到自动更新的内容来源:如经常更新关注度较高的博客、专业网站等,这里我们就拿淘宝论坛https://www.360docs.net/doc/122510937.html,举个例子。找到开始采集地址栏右侧,点击向导添加。 2.添加开始采集地址中的多页类似地址形式前,要分析一下它的类似形式,例:我们在淘宝论坛中搜索“西服”相关内容,然后任意翻阅不同的页数查看它的网页地址。 第一页地址、第二页地址、第三页地址分别为: 以此类推,分析出其不同点在于上图红框处的数字变化,因此:假如我们只采集论坛的第一页,就在多页类似地址形式栏粘贴第一页的网址,按一下(*)将选中的数字1替换成(*), 再将数字变化改为相应页数:1, 然后点击添加、完成。

火车头采集文档

火车头采集教程 1.基本概念: a)采集:就是对页面上有用的信息进行抽取并下载的过程。 b)列表页:有大量内容页面链接的页面,如下: c)内容页:由列表页点击进去的页面,也是真正需要采集的页面,如下:

内容页抽取的过程实质上也就是在源代码中找到需要的内容的开始和结束的字符串,系统进行自动匹配的过程,比如上图中”王宝强携….” 这个标题,在源代码中的格式是这样的

因此,只需要把上图中的开始和结束字符串拷贝到软件中就可以了(详情见下) 2.基本步骤: a)确定需要采集的网站 b)观察网站结构,找到列表页,做以下工作 i.观察列表页中需要的内容页的链接样式 ii.观察列表页第一页、第二页等等的链接样式。 c)对内容页进行模板编写 d)开始采集任务。 3.详细实例: 下面通过一个具体的例子来具体讲解火车头采集器的工作过程 这个例子尝试抓取https://www.360docs.net/doc/122510937.html,/NewsList-Front.aspx 这个页面的前5页的内容 a)打开程序 打开后如下图: b)在站点任务列表树那里右键-》新建站点类似下图

c)主界面中出现https://www.360docs.net/doc/122510937.html,的标签,在这个标签上右键选择新建站点,如下: 出图如下:

点击向导添加,对列表页的链接地址进行描述,弹出窗口如下: 为了确定在这里填写什么,我们先到需要抓取的列表看看,也就是https://www.360docs.net/doc/122510937.html,/NewsList-Front.aspx 然后鼠标在页面上浮动,观察它的链接样式,如下图

第一页 第二页 看到这里,我们可以发现,这里的列表页的规则是https://www.360docs.net/doc/122510937.html,/NewsList-Front.aspx?page=0 https://www.360docs.net/doc/122510937.html,/NewsList-Front.aspx?page=1 … 即:链接前面是不变的,只有后面的页码改变,因此现在我们可以知道上面的表单怎么填了,如下图: 这里的(*)代表通配符,系统会自动按照你的规则对这个字符进行替换。比如,现在的规则是数字变化从0到4,间隔为1,因此,系统自动生成了如预览中的列表样式出来了。 预览中的链接样式确定没有问题后,点击添加。 然后点击完成。 d)现在又回到了这个页

详解版火车头采集教程

火车头采集教程 下载地址:https://www.360docs.net/doc/122510937.html,/Down/我们下载免费版。。。。 注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本 .net framework 2.0下载地址: 那么,火车我们也下载到本地了,。net框架,我们也安装了。。。 那么,我们把新下载的火车采集软件,解压下。。。 看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。 上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。

ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。 我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。 我们先补习一下,火车头采集软件的工作原理。。。 因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html 的源码,那么火车头为什么会采集到内容呢? 我们看下网站的基本结构。。。 -------这些蓝色的东西,对于新手,我们不需要知道! 网页的标题 ----红色的是网页的标题。。。如下图(1) 内容在这个和之间的,是网站的内容部分。。如下图(2) ----------这里是网站的结尾。。。。

火车头采集器菜鸟使用手册

火车头采集教程火车头采集器使用说明 下载地址: 下载地址:/我们下载免费版。。。。 注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本 .net framework 2.0下载地址: 那么,火车我们也下载到本地了,。net框架,我们也安装了。。。 那么,我们把新下载的火车采集软件,解压下。。。 看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。 上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。

ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。 我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。 我们先补习一下,火车头采集软件的工作原理。。。 因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html 的源码,那么火车头为什么会采集到内容呢? 我们看下网站的基本结构。。。 -------这些蓝色的东西,对于新手,我们不需要知道! 网页的标题 ----红色的是网页的标题。。。如下图(1) 内容在这个和之间的,是网站的内容部分。。如下图(2) ----------这里是网站的结尾。。。。

火车采集器发布模块制作教程

本次我们使用DedeCMS5.7文章发布作为演示。我们首先下载安装好gbk版本的DEDE,然后下载数据包抓取工具fiddler。下载完后成打开fillder和采集器的Web发布模块工具,然后我们开始具体的开发过程。首先我们打开dedecms后台,开始登录,登录成功后,我们可以看到fiddler中的数据:

从图中我们可以看到登录过程中提交的数据。我们按模块制作的流程,先设置登录地址后缀和登录地址来源页(如果你使用内置浏览器登录,登录地址设置这一步就可以不用设置了)。这个对应关系如下: 登录地址就是POST地址,来源页就是Refer那一行。因为发布模块一般是要针对一个系统的,所以对很多用户来说,要设置的只是域名的不同,我们本次要去掉域名部分和后台目录部分的网址,将剩下的网址做为地址后缀填写进去。当其他用户使用我们的模块时,只要填写域名地址带后台地址即可。填写的结果是: 第二步,我们复制RAW中的POST数据,填写登录POST数据,注意是选中Fiddler的那一行。 我们打开Web发布模块编辑器,在“网站自动登录”那一页,点击“粘贴抓包获取的数据”。

将我们刚才复制的数据放进去。 然后我们点击提取,会看到表单名和表单值已经自动填写好了。 我们可以知道,userid是用户名,pwd是密码,我们现在将这两个值替换成变量。我们点击修改表单项,删除掉旧数据,单击用户名,结果如下

我们保存好,再设置登录成功标识码,我们可以在fiddler返回的html代码中看到“成功登录,正在转向管理管理主页”几个字样,我们可以在登录成功标识码中填写“成功登录“四个字做为成功标识,当程序登录后发现有这几个字样,就会认为我们登录成功。现在的程序界面如下 登录过程我们最后再测试,现在我们设置内容发布参数。在dedecms中进入发布文章的页面,简单的填写一下必要的字段,然后提交数据。

八爪鱼采集器-新手攻略

下载安装 八爪鱼采集器目前只支持安装在windows操作系统上,为了确保稳定运行并达到最好性能,建议您开启windows自动更新,并且升级window系统到最新版本,本系统需要.Net Framework的支持,请确保您的系统已经安装了.Net Framework,具体请参考以下提示: 本软件需要.NET3.5 SP1支持,Win 7已经内置支持,XP系统需要安装,软件会在安装时自动检测是否安装了.NET 3.5 SP1,如果没有安装则会自动从微软官方在线安装,国内在线安装速度很慢,建议先从下载页面的网盘下载链接安装.NET 3.5 SP1,然后再安装八爪鱼采集器. 如果您下载的是压缩文件,请先解压缩,您将看到如下图所示安装文件,在安装前请先仔细阅读“安装前必读.txt”,然后双击setup.exe,一般情况下,选择默认设置,点几次下一步,即可完成安装。 如果您的操作系统缺少.NET Framework,则会提示安装,这会需要等待一段时间,如果您希望能快速安装,请根据以上提示,先自行安装.NET Framework,再安装八爪鱼采集器。 如何启动 完成安装后,您可以在桌面或者开始菜单找到如下图所示快捷方式,双击即可启动八爪鱼采集器。 注册账号 第一次打开八爪鱼采集器,会打开登录界面,如果您还没有注册“视界”通行证,那么需要点击登录界面上的“免费注册”链接,完成账号注册,注册过程中,请注意必须提供真实正确的Email地址,这个邮箱将用于接收账户激活邮件,也是您忘记密码时用来找回密码的唯一途径。注册完成后,登录您的邮箱就可以收到一份激活邮件,如果您没有看到,请检查您的垃圾邮箱,您的邮箱有可能会阻止激活邮件的接收。如果确信没有收到激活邮件,请打开视界科技网站:https://www.360docs.net/doc/122510937.html,,登录您刚注册的账号,登陆后,点击自己的名字转入用户中心,可以重发激活邮件。点击激活邮件中的链接,将会自动激活您的账号。这时候,您就可以使用该账号登录八爪鱼采集器了。 八爪鱼采集器界面介绍

一、数据采集常用工具安装配置使用

数据采集常用工具安装配置使用 一、Encode-Decode Tools (URL编码转码) 二、Fiddler2 (提交数据抓包) 三、LocoySpiderV2010SP3_Ultimate_Dog_Build2011-05-20 (火车头数据采集器) 四、Notepad++ V5.9.3 (多功能代码编辑器) 先给大家介绍第一款工具:Encode-Decode T ools URL 编码转换工具,用以将16进制格式还原为ASCII 码,并可以处理类似%u3235 这样的unicode 格式。 这里我们用于数据抓包回来的数据是URL编码后的,所以我们要使用这个工具来进行反编码。例如我们通过百度来搜索内容,搜索后的数据,会自动进行编码,在地址栏中显示出来。 例如:我在百度中搜索《小蚂蚁地方门户网站系统》,点击搜索后,地址栏如下: https://www.360docs.net/doc/122510937.html,/s?wd=%D0%A1%C2%EC%D2%CF%B5%D8%B7%BD%C3%C5%BB%A7%CD%F8%D5%BE %CF%B5%CD%B3 前面的网站我们看得懂,s?wd= 后面的数据,我们无法知道他显示的是什么内容,数据被URL编码,这里我们就要使用到第三方工具来完成解码操作。 这个工具使用起来很简单的,只是把URL编码的数据复制到这个软件的文本框中即可解顺利完成密操作。 软件不光可以使用完成解操作,也可以使用中文字符、URL、网页代码等进行数据字符进行加密操作等等。 这里介绍给大家,主要是想让大家了解到我们后面使用抓包工具,抓到的数据是被编码后的,我们根据无法看懂数据被加码后的内容,所以我们在制作发布模块中,这个工具算是必用到的一个工具,之前的教程中也有很多朋友问我,这个工具是做什么用的,这里大家看了上面的介绍,希望对这个工具已经很熟悉不过了吧。呵呵

相关文档
最新文档