火车头使用教程

合集下载

火车头插件使用方法

火车头插件使用方法火车头插件是一款用于浏览器的插件，它可以帮助我们更方便地查看和管理网页的请求和响应信息。

本文将介绍火车头插件的使用方法，帮助读者更好地利用该插件提高工作效率。

我们需要安装火车头插件。

打开浏览器的插件商店（不同浏览器的插件商店可能有所不同），搜索“火车头”插件并点击安装。

安装完成后，我们需要在浏览器的工具栏中找到火车头插件的图标，点击打开插件的界面。

在火车头插件的界面中，我们可以看到几个主要的功能模块，包括请求列表、请求详情、数据篡改等。

下面我们将分别介绍这些功能的使用方法。

首先是请求列表。

在浏览器中打开一个网页后，火车头插件会自动捕获网页的请求信息，并在请求列表中显示。

我们可以通过点击列表中的每一项来查看该请求的详细信息。

在请求列表中，我们还可以通过筛选功能来查找特定的请求，以便更快地找到我们需要的信息。

接下来是请求详情。

当我们点击请求列表中的某一项时，火车头插件会在界面的右侧显示该请求的详细信息。

在请求详情中，我们可以查看该请求的请求头、请求体、响应头、响应体等信息。

如果我们需要查看请求或响应的具体内容，可以点击相应的标签页来查看。

除了查看请求信息外，火车头插件还提供了数据篡改的功能。

在请求详情的界面中，我们可以修改请求的参数、请求头等信息，并发送修改后的请求。

这对于测试和调试一些需要特定参数的接口非常有用。

在修改完请求后，我们可以点击发送按钮来重新发送修改后的请求。

除了上述的主要功能外，火车头插件还提供了一些其他的辅助功能，比如导出请求信息、导入请求信息、自定义请求拦截规则等。

这些功能可以根据具体的需求来使用，提高我们的工作效率。

火车头插件是一款非常实用的浏览器插件，可以帮助我们更方便地查看和管理网页的请求和响应信息。

通过使用火车头插件，我们可以更快地定位问题，提高开发和调试的效率。

希望本文能够帮助到读者，更好地利用火车头插件进行工作。

怎么样使用火车头采集？

以采集示例详解部分功能今天要给大家做示例的网站是163的娱乐频道这个应该是个比较通用和实用的规则，下面开始。

如果您是火车采集器的老手，那么您可以参考下，因为我要讲解的会有违传统的思维；如我您是新手那么您最好能仔细看下，因为这将加快您的入门，同时在以后给您节省很多时间。

以下是一些采集的基本步骤，您可以灵活运用：一、建立站点1、请先打开火车采集器，新建站点，看下图：为了方便管理您可以为您的站点取任何的您觉得易记的名称，但是我建议用目标源的名字作为站点的名称有利于日后的管理，如下图大部分的站点，通站往往只有一套模版或者有几套类似的模版，这边所谓的类似讲的是模版中的标记很接近，那什么是模版标记？模版标记指的是某部分内容开始和结束记号。

比如很多正规的网站（通常是一些站点比较大，内容比较多的网站，比如sina、163等）会在内容开始的部分用类似于或等标志来表示内容的开始。

他们这么作的原因有两个，一个是由于内容多，为了各个部门之间的配合而作了对应的标记以便于工程的交接，另一个原因就是内容控制的需要，随着xhtml 的流行，用层控制越来越多，这就使得我们寻找采集标示越来越简单（这点你们以后会慢慢理解的）。

上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。

2、标题标签讲解。

对应的页面在这：/06/1029/11/2UJNHOS3000322EL.html首先从“站点基本信息”切换到“整站内容规则”，然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。

先从标题标签开始，我们发现按默认标签采集回来的标题多了“_网易娱乐”，请双击标题标签或者选种标题标签在点击修改，把“_网易娱乐”添加到排除内容框里，标题标签完成。

如图：3、内容标签讲解。

制作采集规则（任务）的任何一个标签最重要的就在于寻找开始也结束的标志。

目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志，也就是所有的html源码里只能找到一个开始或结束的标志。

火车头投影仪使用说明书

火车头投影仪使用说明书火车头投影仪使用说明书一、产品概述火车头投影仪是一款便携式投影设备，通过连接外部设备，可以将影像投射到屏幕上，以获得更大的观看区域和更好的观影体验。

二、使用前准备1. 确保火车头投影仪和外部设备（如电脑或手机）处于关闭状态。

2. 确保火车头投影仪和外部设备之间的连接线完好无损。

3. 准备一块干净、平整的屏幕或白色墙壁，作为投影区域。

三、使用步骤1. 将火车头投影仪与外部设备通过连接线连接。

2. 打开火车头投影仪的电源开关，待投影仪启动完毕后，点亮指示灯。

3. 调整投影仪与屏幕的距离，以获得最佳投影效果。

4. 打开外部设备（如电脑或手机），选择要投影的影像或文件。

5. 调整火车头投影仪上的焦距和投影角度，以确保投影画面清晰可见。

6. 点击外部设备上的播放按钮，投影仪会将影像投射到屏幕上进行播放。

7. 观看完毕后，关闭火车头投影仪和外部设备，拔掉连接线。

8. 清理投影区域，避免灰尘和杂物影响下次使用。

四、注意事项1. 请确保使用和存放火车头投影仪的环境通风干燥，避免过度潮湿或高温环境。

2. 不要将火车头投影仪放置在易燃材料附近，以防发生安全事故。

3. 使用过程中请勿遮挡投影仪出风口，以免影响散热效果。

4. 不要随意拆卸和维修火车头投影仪，以免损坏设备或引发危险。

5. 使用后请及时关闭电源，以节省能源和延长投影仪的使用寿命。

以上就是火车头投影仪的使用说明书，希望能帮助您顺利使用该产品。

如有任何疑问或问题，请参阅附带的详细说明书或联系售后服务部门。

感谢您的支持与配合！。

火车头采集器介绍与使用流程说明

• 内容替换：内容替换功能是将采集后的字段中的一些内容替换成需要的格式，如有时采到的日期为xxxx年xx月xx日，而我们需要xxxx-xx-xx 的格式，就可以采取这个功能。
五、字段处理
• 网页编码设定： • 每个网站都有一个相对应的编码：如UTF-8。如果选错编码，则采集
出来的数据就会呈现一种乱码格式。 • 大多数的网页编码火车头都可以自动识别，如不能则需要手动指定一
二、创建任务
• 1.新建分组
填写分组名称
二、创建任务
• 2网址
三、采集网址
• 点击“添加”按钮出现如下界面
三、采集网址
• 切换至“批量/多页”选项卡，可以批量添加网址
网址通用序号用通配符(*)替换
这添加方式主要用来处理分页网址
三、采集网址
• 切换至“其他网址格式”选项卡，也可以批量添加网址
日期格式
网址通用序号用通配符(*)替换
这添加方式主要用来处理含有日期的网址
三、采集网址
• 多级网址采集
点击‘添加’按钮
网址过滤条件
三、采集网址
• 手动采集配置链接地址规则：
• 手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理。而且可以用这方法采集需要的字段，如：公告新闻类的标题、日期等。
火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程序。
一、软件介绍
• 火车采集器数据发布原理：
• 在我们将数据采集下来后数据默认是保存在本地的，我们可以使用以下几种方式对种据进行处理。
• １.不做任何处理。因为数据本身是保存在数据库的（access或是 db3）,您如果只是想看一下，直接用相关软件查看就可以了。

火车头使用说明

火车头使用说明别的不说了，直接开始使用。

(ps:开始之前，最好把爬虫的原理了解一下)咱们用的是免费版，功能什么的很多受到限制，免费版网页只能抓到两级，而且无法定时执行任务。

1、安装完火车头后，直接双击图标打开，此时会弹出一个登录页面，什么都不要管，直接点击登录就进入了主界面，主界面如下：你会发现它有一些内置的分组，分组下面有内置的测试任务，这里要强调一点，每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹，里面放着各自的数据文件，大概内置测试任务有38个，所以data目录下有对应从1到38的38个文件夹，你以后新建任务后，会自动再data目录下建立文件夹，序号依次递增。

2、新建任务和分组。

你可以新建分组，也可以再已有的测试分组下面建立任务，但是有一点要注意，任务不能脱离分组而存在，必须把任务存在分组里面，这里咱们新建一个名字叫做腾讯的分组。

3、右键单击腾讯，选择新建任务，弹出新建任务对话框4、下面我们以腾讯新闻采集为例说一下如何去配置，任务名叫做腾讯新闻可以看到，这里分为四步，第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url 并且入队的过程)，在出现的起始网址，添加单条网址，并点击”添加“按钮。

我们在网页中，通过分析，发现国内新闻的第二页及以后都是以数字递增的方式显示的，我们现在添加等差数列形式的网址最后点击完成，查看效果起始网址的添加就是种子URL的设置过程，这里可以添加多个种子URL，我这里设置了六页下面就是多级网址获取，点击添加按钮，出现如下画面（这一步相当于提取网页所有连接的过程）如果直接点击保存，相当于提取网页中所有链接，但真实情况下我们并不需要所有的链接，所以需要对链接进行过滤，可以从该选定区域提取网址，也可以对结果网址过滤，这里我们设置结果网址必须包含/a，然后点击保存。

你可以看到有一个检测重复网址，这个选项的目的就是告诉你，在多次抓取的过程中是否抓取相同网址的页面，这里默认是选中的。

火车头采集器应该如何使用

关于火车头使用方法目录目录 (2)一、原理描述 (3)1.火车采集器数据抓取原理： (3)2.火车采集器数据发布原理： (3)3.火车采集器工作流程： (3)二、术语解释 (4)三、下载地址 (5)四、安装升级与卸载 (6)五、操作步骤 (7)一、原理描述1.火车采集器数据抓取原理：火车采集器如何去抓取数据，取决于您的规则。

您要获取一个栏目的网页里的所有内容，需要先将这个网页的网址采下来，这就是采网址。

程序按您的规则抓取列表页面，从中分析出网址，然后再去抓取获得网址的网页里的内容。

再根据您的采集规则，对下载到的网页分析，将标题内容等信息分离开来并保存下来。

如果您选择了下载图片等网络资源，程序会对采集到的数据进行分析，找出图片，资源等的下载地址并下载到本地。

2.火车采集器数据发布原理：在我们将数据采集下来后数据默认是保存在本地的，我们可以使用以下几种方式对数据进行处理。

1、不做任何处理。

因为数据本身是保存在数据库的（access、db3、mysql、sqlserver），您如果只是查看数据，直接用相关软件打开查看即可。

2、Web发布到网站。

程序会模仿浏览器向您的网站发送数据，可以实现您手工发布的效果。

3、直接入数据库。

您只需写几个SQL语句，程序会将数据按您的SQL语句导入到数据库中。

4、保存为本地文件。

程序会读取数据库里的数据，按一定格式保存为本地sql或是文本文件。

3.火车采集器工作流程：火车采集器采集数据是分成两个步骤的，一是采集数据，二是发布数据。

这两个过程是可以分开的。

1、采集数据，这个包括采集网址，采集内容。

这个过程是获得数据的过程。

我们做规则，在采的过程中也算是对内容做了处理。

2、发布内容就是将数据发布到自己的论坛，CMS的过程，也是实现数据为已有的过程。

可以用WEB在线发布，数据库入库或存为本地文件。

具体的使用其实是很灵活的，可以根据实际来决定。

比如我可以采集时先采集不发布，有时间了再发布，或是同时采集发布，或是先做发布配置，也可以在采集完了再添加发布配置。

火车头工具使用

第一步：新建组，如图我们新建的组名为“癫痫”，然后癫痫下边新建任务，如果是癫痫治疗，那么就可以取名为“癫痫治疗”：第二步：开始任务：点开之后选择批量多页，你给的我看了，总共有三页，所以选择项数为3，然后在网址选择上第三步，在选择地址格式的时候，注意观察，第一页文章和第二页文章网址有什么不同，将相同的保留，不同的用（*）代替，选取不同的用（*）代替，可以直接在后边点击，就自动添加了（*）我们观察后发现，地址只有前边的/sj/dxbdzlff/list_26_是相同的，后边会自动变化，所以格式就为/sj/dxbdzlff/list_26_（*）.html，第四步，网址选择完成后，单击添加，完成接下来就是多级网址的获取：（这是采集关键）*第五步：必须包含，任意选取其中一篇文章，提取，将不同的用（*）代替。

接下来的关键在地址选择：打开文章列表页：怎样判断代码源里边是独一无二的代码，ctrl+F查找查看源代码：找出标题列表最上边的独一无二的最接近标题的代码，一般都是div class=“”这样的格式，标题列表末尾也是同样选取，同样格式，独一无二末尾：选取完成后点击保存完成后先测试网址采集，就在最下边：测试正确完成后点击保存，接下来进行第二大步。

第二部分：第一步：采集容规则容采集，就比较简单了，任意选取一篇文章，查看源代码：找出标题前后代码：同样代码也是独一无二，双击标题，就可以进入：代码选择完成后确定。

接下来就是容页：同样双击之后查看：容代码的选择完成后，结果如下：但是注意容要添加HTML标签排除全选之后将换行和空格勾去确定之后就差不多完成了。

你也可以随便找一篇页面文章测试下结果：第三部分：第一步，发布容设置：文件模板地址：这个地址就看你把文件在那解压的。

这就算是全部完成了。

接下来就是采集：保存之后，三个全打对勾，开始采集：右键点击，开始任务，完成后只要去你建立的文件夹里边看就可以了。

火车头操作手册-Mg

火车头操作手册目录前言 (1)摘要 (2)第一章基础知识 (3)1．1 HTML 基础知识 (3)1．2 采集基础知识 (5)1．3发布基础知识 (5)1．4正则基础知识 (7)第二章火车头采集篇 (11)2.1 什么是信息采集? (11)2.2 火车头采集器的采集工作流程 (11)2.3 数据的转储 (20)第三章火车头发布篇 (24)3.1火车头发布内容的介绍 (24)3.2 接口文件的介绍.................................................................... 错误！未定义书签。

3.3 发布模块的制作 (26)第四章应用进阶 (38)4．1 火车头+PHP程序 (38)第五章防采技术介绍 (40)5.1 采集器与搜索引擎蜘蛛的区别 (40)5.2 防采集的一些主要措施 (40)5.3 火车头官方谈采集与防采 (42)5.3.1、谈火车头采集器的由来 (42)前言随着公司的日益壮大，产品线的不断拓宽，我们SEM团队也正在快速扩张，同时也带来了一系列问题，比如：团队成员的相互学习与交流，新员工的快速融入问题等。

因此员工学习手册的编写，势在必行。

员工学习手册，是团队成员技术，经验的总结，大家通过学习其他人的工作经验、技术，提高自己，同时团队实习也得到了提升。

而对于新入职的员工，根据前人的总结，经验，可以少走很多弯路，能够帮助他们快速融入集体，使得新人的适应期可以大大缩短，提高了新人培训效率。

在员工学习手册的编写过程中，我与沙亚金参与了《玩转“火车头”》的编写，里面是我们的一些使用火车头的一些心得，和技巧。

希望能够在信息采集，发布这块对大家有所帮助，由于时间，经验等因素，写的过程中也存在许多缺陷，欢迎大家与我们交流，批评指正。

在这里我们要感谢吉总，是他为大家带来了“火车头”。

摘要在这信息大爆炸的时代里，什么最重要？当然是信息。

对于“内容为王”的SEOer来说信息更是无价之宝。

火车头采集器用户手册

火车头采集用法下载火车头采集：地址：/Down/火车采集器的安装：火车采集器2010版是绿色软件。

如果您电脑上安装了微软的.NET FrameW ork 2.0框架或更高版本，安装时直接解压缩到您电脑的任何地方即可完成采集器的安装--安装过程不操作注册表和系统文件，不产生任何垃圾文件！如果您安装后程序无法启动，那可能是您电脑没有安装.NET FrameW ork 2.0，请下载微软的.NET FrameW ork 2.0框架或更高版本并安装。

附2.0下载地址:/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe下载完之后点击d otnetfx.exe安装.NET FrameW ork。

安装完.NET FrameW ork之后打开火车采集器目录，双击目录内的LocoySpider.exe文件启动主程序开始采集之旅。

火车头采集基本流程：系统设置→新建站点→新建任务→采集网址→采集内容→发布内容→抓数据。

1.新建站点：据你自己的需求为任务建立统一的站点，以方便管理。

点击菜单上：站点→新建站点打开如下图：可以填写站点名，站点地址，网址深度（0，代表根据地址直接采内容。

1，代表根据地址采内容地址，然后根据内容地址采内容。

2，代表根据地址采列表地址，然后根据列表地址采内容地址，再根据内容地址采内容。

），站点描述。

2.新建任务：任务是采集器采集数据时的基本工作单元，它一定是建立在站点中的。

采集器通过运行任务来采集发布数据。

任务工作的步骤总体可以分为三步：采网址，采内容，发内容。

一个任务的运行可以任意选择哪几步。

而采集器又可以同时运行多个任务（默认设置是同时最多运行3个任务）。

选择站点点击右键选择“从该站点新建任务”。

任务的编辑界面如图：采集器的使用最主要的就是对任务的设置。

而采集数据可以分为两步，第一步是：采网址，第二步：采内容。

3.采集网址：采网址，就是从列表页中提取出内容页的地址。

火车头简单使用说明

火车头的简单使用说明火车头采集大致分为以下几步：1.建立站点。

2.建立采集规则（包括网址规则和采集规则）。

3.建立发布规则4.采集并发布先说第一步，建立站点。

很简单如下图：可以点上面的整站内容规则，把不同分类的公共标签等些在里面，会比较方便，自己试一下，咱们就按最基本的方法说。

点击保存按钮后，站点被保存，在左侧出列表树出现站点名称。

在名称上面，单击右键，选择从该站点新建任务出现如下对话框：点击向导添加，添加要采集的信息的列表页地址，找到列表页的分页规则，可以批量添加，也可以单页添加，建议先用单页，一是错误少，二十一次采集太多，你不怕把搜索引擎惹怒了。

好了不说废话，上图！点击添加后，单击完成，回到上一页，开始测试网址采集，当然最好添加一些必须有和不得包含的字符，过滤掉没用的链接。

还是看图：用鼠标随便选中一个链接，点浏览页面，看看有没有没用的东西，如果没有，选中一个页面，点击测试该页，出现如下图界面：上图中的标签，是很关键的东西，什么是没用的标签，什么是有用的标签呢？有用的，就是你发表信息的时候能用到的，比如说标题、电话等等。

火车头默认带着的时间、出处等就是没用的，干掉它！那么，怎么样建立标签呢？我拿标题来说一下，其他都类似了。

查看被采集内容页的源文件，找到标题的地方，看看被什么网页标签包围着，就是它了：这样标题就可以采集到了，类似的方法建立其他标签,即可采集到其他内容，下图是我采集：至此，采集部分完成，一些步骤说的比较简单，用的时候再摸索一下吧！然后,打开相应的data文件夹中找到与站点相同名字的文件夹,进入打开ACCESS文件导出数据为excel文件，整理数据之后导入数据库即可。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

查看此教程建议视图：
因为包含很多图片，其他视图导致图片查看不全。

解压后看到的文件有：
其中discusX3.0.wpm 是发布模块，dz测试接口.ljobx 是用于测试的规则，以后不要问规则该怎么写了，就按照这个格式写。

1，上传接口
根据自己的网站编码选择GBk或者utf8文件下下面的接口文件，jiekou.php，这个接口有个密码，默认是123456，如果想要修改，就打开这个jiekou.php,修改：
就是上图这个，把默认的“123456”修改成你想要的，修改好了一定要保存，看不懂那就不要修改了。

然后把这个文件上传到DZ网站的根目录，不知道什么是根目录的自己百度，不要问上传到那里，自己的网站
别人怎么知道你的根目录是什么，不知道就自己去查。

然后我们在浏览器里试试能不能访问，访问地址是http://网站域名/jiekou.php?pw=密码，这个密码就是上面说的接口密码：
如果能出现论坛的模块就证明接口是对的了。

2，导入发布模块
点击发布按钮：
打开配置界面（有些慢，稍等下）：
成功导入后会有提示的。

发布模块设置：
第一步，选择我们刚才导入的dz发布模块。

第二步：全局变量就是上面说的接口文件密码
第三步：选择对应的编码
第四步：网站根目录就填写上面我们访问接口的时候去掉后面的接口文件名称，剩余后的地址。

然后选择“不需要登录&Http请求”
第五步：点击获取列表，如果能显示论坛版块就说明上面4步设置的正确。

设置好了点击测试配置，成功后就设置一个配置名保存这个配置在规则里面使用，
简单分布，只发布标题内容回复的情况
我们打开发布模块，来介绍下里面的内容：
点击编辑按钮，到“内容发布参数”选项卡：
介绍下表单名：
✧username：对应的论坛发帖和回帖的用户名
✧subject ：对应的是论坛的标题
✧message ：对应是发布的帖子主题和回复内容，这2部分是放到
一起的
✧fid ：对应的是版块ID
✧signature ：发帖人和回复人的签名内容，这里也是放在一起的
✧publishdat：发帖和回帖的时间，同样2部分是放在一起的
✧typeid ：对应的是主题分类的ID
✧typename：对应主题分类名，我们写了上面的分类ID,这里就可
以不用设置值了，表单值留空即可。

✧sortid：对应的是分类信息的ID
✧fanme：对应的是版块的名称，同样上面设置了fid的值，这里
的值就可以不用设置，表单值留空即可
✧avatar：发帖人和回帖人的头像信息，同样的2部分是放到一起
的
✧tags：发帖的时候设置的标签
假如我们不需要那个表单值，比如我们不需要signature,我们按照上图选中这个，然后点击“修改表单值”，把表单值这里设置为空就可以了如下图：
然后同样的办法处理我们别的不要的表单如下图我把typeid，typenam等等表单我都不需要，我就用上面的办法把他们的表单值设置为空就可以了:
当然了你自己需要什么表单，自己选择啦。

我们把测试规则导入到采集器里面，来说明下规则设置：
在第二步：采集内容规则，我们直接点击右侧的“测试”按钮，看下采集到的内容，这个规则是采集dz官方论坛。

因为是采集论坛所以内容标签采集到结果是帖子内容和回帖内容，作者标签采集到的是发帖用户名和回帖用户名，头像和时间以及签名，都是发帖人和回帖人的相关信息的组合。

采集到的作者，接口为自动注册的。

要用到标签循环右侧“标签循环处理”分隔符必须写“||||”，右侧信息看到结果都是用“|||”连接各个信息的。

说下头像这个标签，一个用户的头像一定是“头像图片地址用户名”这样组合在一起。

规则如何设置就看自带的规则，不需要的标签删掉就可以了。

需要加的标签添加上，总之规则里的标签和发布模块里的标签一一对应，标签名要一致。

好没有看到在发布模块那里看到内容标签其实发布模块里的{0}就代替了，参考：/spider-75522-1-1.html
都设置好了就在规则里面使用如下图：
接口扩展说明：
接口注册的用户名密码设置,打开接口：
这里设置的就是新用户注册的密码，我设置的是12346，那么所有接口注册的用户的登录密码都是123456
如果留空的话，新注册的用户名密码就是：把用户名和密码参数连接起来，md5下，取后面的12位，上图用户密码下面就是用户名密码参数，是可以设置的。

回复用户名如果没有采集到就用接口里面设置的用户名如下图：
这些是可以修改的。

接口里面有个映射关系如下图：
意思就是我们建立一个标签名为fname,如果采集到的是“版块1”，那么就发布对应的版块id是1的版块里面，这个可以根据自己论坛版块进行修改。

下面的typname也是同样的。

这样设置的好处就是不需要设置分类id直接通过版块名称和主题分类名称自动对应上。