火车头使用教程
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
解压后看到的文件有:
其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。
1,上传接口
根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改:
就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。
然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站
别人怎么知道你的根目录是什么,不知道就自己去查。
然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码:
如果能出现论坛的模块就证明接口是对的了。
2,导入发布模块
点击发布按钮:
打开配置界面(有些慢,稍等下):
成功导入后会有提示的。发布模块设置:
第一步,选择我们刚才导入的dz发布模块。
第二步:全局变量就是上面说的接口文件密码
第三步:选择对应的编码
第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。然后选择“不需要登录&Http请求”
第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。
设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用,
简单分布,只发布标题内容回复的情况
我们打开发布模块,来介绍下里面的内容:
点击编辑按钮,到“内容发布参数”选项卡:
介绍下表单名:
?username:对应的论坛发帖和回帖的用户名
?subject :对应的是论坛的标题
?message :对应是发布的帖子主题和回复内容,这2部分是放到
一起的
?fid :对应的是版块ID
?signature :发帖人和回复人的签名内容,这里也是放在一起的
?publishdat:发帖和回帖的时间,同样2部分是放在一起的
?typeid :对应的是主题分类的ID
?typename:对应主题分类名,我们写了上面的分类ID,这里就可
以不用设置值了,表单值留空即可。
?sortid:对应的是分类信息的ID
?fanme:对应的是版块的名称,同样上面设置了fid的值,这里
的值就可以不用设置,表单值留空即可
?avatar:发帖人和回帖人的头像信息,同样的2部分是放到一起
的
?tags:发帖的时候设置的标签
假如我们不需要那个表单值,比如我们不需要signature,我们按照上图选中这个,然后点击“修改表单值”,把表单值这里设置为空就可以了如下图:
然后同样的办法处理我们别的不要的表单如下图我把typeid,typenam等等表单我都不需要,我就用上面的办法把他们的表单值设置为空就可以了:
当然了你自己需要什么表单,自己选择啦。
我们把测试规则导入到采集器里面,来说明下规则设置:
在第二步:采集内容规则,我们直接点击右侧的“测试”按钮,看下采集到的内容,这个规则是采集dz官方论坛。
因为是采集论坛所以内容标签采集到结果是帖子内容和回帖内容,作者标签采集到的是发帖用户名和回帖用户名,头像和时间以及签名,都是发帖人和回帖人的相关信息的组合。
采集到的作者,接口为自动注册的。
要用到标签循环右侧“标签循环处理”分隔符必须写“||||”,右侧信息看到结果都是用“|||”连接各个信息的。
说下头像这个标签,一个用户的头像一定是“头像图片地址用户名”这样组合在一起。
规则如何设置就看自带的规则,不需要的标签删掉就可以了。需要加的标签添加上,总之规则里的标签和发布模块里的标签一一对应,标签名要一致。
好没有看到在发布模块那里看到内容标签其实发布模块里的{0}就代替了,参考:https://www.360docs.net/doc/122510937.html,/spider-75522-1-1.html
都设置好了就在规则里面使用如下图:
接口扩展说明:
接口注册的用户名密码设置,打开接口:
这里设置的就是新用户注册的密码,我设置的是12346,那么所有接口注册的用户的登录密码都是123456
如果留空的话,新注册的用户名密码就是:把用户名和密码参数连接起来,md5下,取后面的12位,上图用户密码下面就是用户名密码参数,是可以设置的。
回复用户名如果没有采集到就用接口里面设置的用户名如下图:
这些是可以修改的。
接口里面有个映射关系如下图:
意思就是我们建立一个标签名为fname,如果采集到的是“版块1”,那么就发布对应的版块id是1的版块里面,这个可以根据自己论坛版块进行修改。
下面的typname也是同样的。
这样设置的好处就是不需要设置分类id直接通过版块名称和主题分类名称自动对应上。
火车头操作手册-Mg
火车头操作手册
目录 前言 (1) 摘要 (2) 第一章基础知识 (3) 1.1 HTML 基础知识 (3) 1.2 采集基础知识 (5) 1.3发布基础知识 (5) 1.4正则基础知识 (7) 第二章火车头采集篇 (11) 2.1 什么是信息采集? (11) 2.2 火车头采集器的采集工作流程 (11) 2.3 数据的转储 (20) 第三章火车头发布篇 (24) 3.1火车头发布内容的介绍 (24) 3.2 接口文件的介绍.................................................................... 错误!未定义书签。 3.3 发布模块的制作 (26) 第四章应用进阶 (38) 4.1 火车头+PHP程序 (38) 第五章防采技术介绍 (40) 5.1 采集器与搜索引擎蜘蛛的区别 (40) 5.2 防采集的一些主要措施 (40) 5.3 火车头官方谈采集与防采 (42) 5.3.1、谈火车头采集器的由来 (42)
前言 随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。因此员工学习手册的编写,势在必行。 员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。 在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。在这里我们要感谢吉总,是他为大家带来了“火车头”。
火车头使用教程
查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 解压后看到的文件有: 其中discusX3.0.wpm 是发布模块,dz测试接口.ljobx 是用于测试的规则,以后不要问规则该怎么写了,就按照这个格式写。 1,上传接口 根据自己的网站编码选择GBk或者utf8文件下下面的接口文件,jiekou.php,这个接口有个密码,默认是123456,如果想要修改,就打开这个jiekou.php,修改: 就是上图这个,把默认的“123456”修改成你想要的,修改好了一定要保存,看不懂那就不要修改了。 然后把这个文件上传到DZ网站的根目录,不知道什么是根目录的自己百度,不要问上传到那里,自己的网站
别人怎么知道你的根目录是什么,不知道就自己去查。 然后我们在浏览器里试试能不能访问,访问地址是http://网站域名/jiekou.php?pw=密码,这个密码就是上面说的接口密码: 如果能出现论坛的模块就证明接口是对的了。 2,导入发布模块 点击发布按钮: 打开配置界面(有些慢,稍等下):
成功导入后会有提示的。发布模块设置:
第一步,选择我们刚才导入的dz发布模块。 第二步:全局变量就是上面说的接口文件密码 第三步:选择对应的编码 第四步:网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称,剩余后的地址。然后选择“不需要登录&Http请求” 第五步:点击获取列表,如果能显示论坛版块就说明上面4步设置的正确。
设置好了点击测试配置,成功后就设置一个配置名保存这个配置在规则里面使用, 简单分布,只发布标题内容回复的情况 我们打开发布模块,来介绍下里面的内容: 点击编辑按钮,到“内容发布参数”选项卡: 介绍下表单名: ?username:对应的论坛发帖和回帖的用户名 ?subject :对应的是论坛的标题 ?message :对应是发布的帖子主题和回复内容,这2部分是放到 一起的 ?fid :对应的是版块ID ?signature :发帖人和回复人的签名内容,这里也是放在一起的
火车头使用说明
火车头使用说明 别的不说了,直接开始使用。(ps:开始之前,最好把爬虫的原理了解一下) 咱们用的是免费版,功能什么的很多受到限制,免费版网页只能抓到两级,而且无法定时执行任务。 1、安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接 点击登录就进入了主界面,主界面如下: 你会发现它有一些内置的分组,分组下面有内置的测试任务,这里要强调一点,每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹,里面放着各自的数据文件,大概内置测试任务有38个,所以data目录下有对应从1到38的38个文件夹,你以后新建任务后,会自动再data目录下建立文件夹,序号依次递增。 2、新建任务和分组。你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一 点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名字叫做腾讯的分组。 3、右键单击腾讯,选择新建任务,弹出新建任务对话框
4、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻 可以看到,这里分为四步,第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url 并且入队的过程),在出现的起始网址,添加单条网址,并点击”添加“按钮。
我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址 最后点击完成,查看效果
起始网址的添加就是种子URL的设置过程,这里可以添加多个种子URL,我这里设置了六页下面就是多级网址获取,点击添加按钮,出现如下画面(这一步相当于提取网页所有连接的过程) 如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,所以需要对链接进行过滤,可以从该选定区域提取网址,也可以对结果网址过滤,这里我们设置结果网址必须包含https://www.360docs.net/doc/122510937.html,/a,然后点击保存。
火车头LocoySpider发布模块制作(dede5.7)图文教程
火车头发布模块制作(dede5.7)图文教程 说明:为方便大家更好的学习和掌握火车头采集器((LocoySpider)自定义发布 模块的制作,本人通过火车头采集器((LocoySpider)安装配置教程以具体的实例用图文教程的方式全面介绍火车头采集器((LocoySpider)自定义发布模块的制作的方法和技巧,方便大家学习和使用。如果有兴趣登陆可视教程论坛在线学习和观看火车头采集器((LocoySpider)自定义发布模块的制作入门到精通视频教程. 本文以图文方式全面详细介绍火车头采集器((LocoySpider)为dede5.7量身制作自定义发布模块。 一、打开抓包工具Fiddler2汉化版 二、打开ie,登陆https://www.360docs.net/doc/122510937.html,/dede/后台 用管理员登陆dede后台。抓包工具有如下数据:
找到其中的login.php文件:如下 上图右边红框内容如下: POST https://www.360docs.net/doc/122510937.html,/dede/login.php HTTP/1.1 Host:https://www.360docs.net/doc/122510937.html, User-Agent:Mozilla/5.0(Windows NT6.1;WOW64;rv:28.0)Gecko/20100101Firefox/28.0 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language:zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding:gzip,deflate Referer:https://www.360docs.net/doc/122510937.html,/dede/login.php?gotopage=%2Fdede%2Findex.php Cookie:menuitems=1_1%2C2_1%2C3_1%2C4_1;cyan_uv=C62149898D900001D7B51A6E683024D0; lastCid=3;lastCid__ckMd5=86ae82e846e9c1b1; ENV_GOBACK_URL=%2Fdede%2Fmychannel_main.php;PHPSESSID=v806m80pcefgmsmgvlcgao5u66 Connection:keep-alive Content-Type:application/x-www-form-urlencoded Content-Length:106 gotopage=%2Fdede%2Findex.php&dopost=login&adminstyle=newdedecms&userid=admin&pwd= hncctv&validate=rug1&sm1= 三、打开火车头,并新建发布:设置网站自动登陆
爱站关键词采集器使用方法
https://www.360docs.net/doc/122510937.html, 爱站关键词采集器使用方法 本文介绍使用八爪鱼采集爱站关键词的方法。作为一个站长使用比较频繁的工具,爱站具有长尾关键词的挖掘功能,这些关键词对于做SEO 的朋友来说是非常有价值的。将需要的关键词采集下来,对于网站内容的生产方向,网站结构的规划, TDK 的编写都是非常有用的。 采集网站: 本文仅以采集“旅游”、“旅游攻略”、“旅游景点”这三个词采集长尾关键词举例说明。大家可根据自身需要,更换不同的关键词进行挖掘长尾关键词。 使用功能点: ● 文本输入登录方法(7.0版本) https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/srdl_v70.html ● 验证码登录 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/kjsb7.html
https://www.360docs.net/doc/122510937.html, ●数字翻页 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/szfy_7.html ●文本循环 https://www.360docs.net/doc/122510937.html,/tutorialdetail-1/wbxh_7.html 步骤1:创建爱站关键词采集任务 1)进入主界面,选择“自定义模式”,点击“立即使用” 2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
https://www.360docs.net/doc/122510937.html, 步骤2:登录爱站工具 1)系统自动打开网页, 进入爱站关键词挖掘页面。点击“登录”按钮,选择“点击该链接”,进入爱站工具登录页面。
https://www.360docs.net/doc/122510937.html, 2) 在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。点击账号输入框,选择“输入文字”
火车头采集器-采集与发布带图片的文章
如何使用火车头采集器 火车头采集器7.6 免费版,功能有很多限制,但我已使用它实现了采集与发布(带图片、排版)。图片是通过采集程序下载到本地,放在一个约定好名字的文件夹中,最后人工上传到服务器DZ程序运行目录下的pic目录下。下载火车头采集器7.6版本LocoySpider_V7.6_Build20120912.Free.zip,解决后可运行。需要.NET 环境。 程序是Discuz!X 2.5 GBK版本。 核心工作有两部分:1、采集,2、发布。 本文重点说如何发布(带图片、排版),简单说如何采集。 一、新建一个使用UBB格式的Web在线发布模块 因为采集下来的文章内容是HTML格式,如:正文 这样带有HTML标签的文本。 而DZ论坛使用的是UUB格式,如:[p]正文[/p],所以在发布时要做一个自动转换。下面就是设置这个自动转换功能。 如果你的文章发布的DZ门户,就不需要转换为UBB. 1、打开发布模块配置: 2、以软件里自带的Discuz!X 2.0论坛为模板进行修改。我试过了可以正常住Discuz!X 2.5发布文章。 3、设置为:对[标签: 内容]做UBB转换,如下图中的样子: 最后,另存为一个新的“发布模块”,起一个新名字,后面要使用。
4、在“内容发布参数”选项卡中修改:[标签: 内容] 的值可以用使用{0} 来替代。如下图: 黄色框内的[标签: 内容]替换成{0},如下图
第一部分工作就完成了。 二、使用Web在线发布模块 前面我新建了一个新的Web在线发布模块,下面就是使用它。第一步:新一个“发布”,操作如下图:
注意:请到论坛的后台修改设置,要求登录时不需要输入验证码,才能登录成功,才能测试成功,记得以后要改回来啊。 最后保存时要起个新名字。 三、准备采集 这里以火车自带的采集演示来说明。鼠标右击“腾讯新闻”—“编辑任务”,打开如下窗口。 如下图设置,使用前一步建立的“发布模块”,可以把采集到的内容发布到论坛的某个栏目中。 设置如下图:
火车头经典教程
怎么样使用火车头 下载地址:https://www.360docs.net/doc/122510937.html,/Down/我们下载免费版。。。。 注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本 .net framework 2.0下载地址: 那么,火车我们也下载到本地了,。net框架,我们也安装了。。。 那么,我们把新下载的火车采集软件,解压下。。。 看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。 上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。
ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。 我们会看到火车的界面,看起来非常复杂,是吧?呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。 我们先补习一下,火车头采集软件的工作原理。。。 因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html 的源码,那么火车头为什么会采集到内容呢? 我们看下网站的基本结构。。。
-------这些蓝色的东西,对于新手,我们不需要知道!locoy火车头采集教程与实例
火车头采集教程 火车头采集基本流程: 系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。 1.新建站点: 据你自己的需求为任务建立统一的站点,以方便管理。 点击菜单上:站点→新建站点打开如下图: 可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。1,代表根据地址采内容地址,然后根据内容地址采内容。2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。),站点描述。 2.新建任务: 任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。 选择站点点击右键选择“从该站点新建任务”。任务的编辑界面如图:
采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。3.采集网址: 采网址,就是从列表页中提取出内容页的地址。 从页面自动分析得到地址连接:以https://www.360docs.net/doc/122510937.html,/book/01.45.52_P1.html页面为例。我们来采集这个网址上的书信息。这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。 先将该列表页地址添加到采集器里。点击“<<向导添加”后弹出“添加开始采集地址”对话框。我们选择“单条网址”如 图: 点击添加把https://www.360docs.net/doc/122510937.html,/book/01.45.52_P1.html地址添加到下面框中,点击完成即实现增加列表地址。 如果我们选择“批量/多页”,如图:
火车头采集模块
最全面的火车头采集模块、发布模块制作教程(织梦V5.7) 应一个朋友的要求,想做一个关于火车头采集和发布模块的教程,采用的系统是织梦5.7版本。准备做的是视频语音教程,但是由于中间出了一些意料之外的问题,不得不改为图文了,顺便发到博客上面。 先说一下准备工作,我安装的是全新的织梦5.7。 使用到的软件:1、HTTP Analyzer Stand-alone V5.2.1.212;2、火车头采集器2010SP3免费版采集网站:https://www.360docs.net/doc/122510937.html,/society/的“社会与法”栏目。 发布网站:https://www.360docs.net/doc/122510937.html,/(本地)。 一、采集模块的制作 其实采集模块的制作比较简单,具体操作步骤如下: 1、新建站点 点击火车头主界面“站点(S)”—“新建站点”,在弹出的“新建站点”界面中,站 点名命名为新浪,点击保存即可。 2、新建任务 a)在“站点任务列表树”一栏,选中刚添加的“新浪”并且鼠标右键,选中“从 该站点下新建任务”,弹出“新建任务窗口”。 b)“采集网址深度”选1(默认即为1),其它默认。 c)点击“开始采集地址”右侧的“向导添加”,在弹出的“添加开始采集地址” 窗口中选中“单条网址”,在里面输入我们要采集的网址 https://www.360docs.net/doc/122510937.html,/society/,点击“添加”,点击“完成”。 d)下面一步是比较重点的一步了,打开我们要采集的新浪新闻的这个页面: https://www.360docs.net/doc/122510937.html,/society/,右键查看其源码,在源码中找到我们想要采 集的那部分的源码,如图所示,标红的这块,其实就是我们需要采集的网页内 容的一个列表。 e)https://www.360docs.net/doc/122510937.html,/kmche/ f)https://www.360docs.net/doc/122510937.html,/kmesdiandongche/ g)在火车头的“页面内选定区域采集网址”的“从”编辑框中填入标红这块最近 的上方唯一源码标示,我这里选择“