八爪鱼采集器高阶教程

合集下载

使用八爪鱼采集器采集京东商品评论信息

介绍采集使用八爪鱼7.0采集京东商品评论数据的方法采集网站：使用功能点：● Ajax 翻页 ● 分页内容提取相关采集教程：淘宝评论采集天猫商品信息采集京东商品信息采集步骤1：创建采集任务1）进入主界面选择，选择自定义模式采集京东商品评论信息图12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”采集京东商品评论信息图23）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的评价信息是这次演示要采集的内容采集京东商品评论信息图3步骤2：创建翻页循环●找到商品评论列表●找到翻页按钮，设置翻页循环●设置ajax翻页时间1）在商品页中，找到“商品评论”，鼠标点击，在右侧操作提示框中，选择“点击该链接”采集京东商品评论信息图42）将页面下拉到底部，找到下一页按钮，鼠标点击，在右侧操作提示框中，选择“循环点击下一页”采集京东商品评论信息图4由于页面使用了ajax加载技术，需要对点击元素及翻页步骤设置ajax延时加载（ajax判断方法：打开流程图，找到翻页循环框，手动执行翻页，看网站有没有进行加载）在右侧的高级选项框中，勾选Ajax加载数据，选择合适的超时时间，一般设置2秒；最后点击确定采集京东商品评论信息图5注意：点击右上角的“流程”按钮，即可展现出可视化流程图。

步骤3：评论信息采集选中需要采集的字段信息，创建采集列表编辑采集字段名称1）移动鼠标选中评论框，右键点击，如图所示，评论框中数据会被全部选中，变成红色，点击右侧提示中“选中子元素”采集京东商品评论信息图62）评论页中适配的内容会变成绿色，在右侧操作提示框中，查看提取的字段，可以将不需要的字段删除，点击右侧“选中全部”采集京东商品评论信息图7注意：鼠标放在提示框中的字段上会出现一个删除标识，点击即可删除该字段。

3）点击“采集以下数据”采集京东商品评论信息图84）修改采集字段名，并点击下方提示中的“保存并开始采集”采集京东商品评论信息图95）根据采集的情况选择合适的采集方式，这里选择“启动本地采集”采集京东商品评论信息图10说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

八爪鱼采集论坛帖子图文攻略

八爪鱼采集软件如何采集论坛帖子的图文攻略
八爪鱼采集器如何采集论坛的帖子及图片的详细操作步骤。

先来看看采集规则市场内的有关论坛方面的采集规则都有哪些？
搜索“论坛”相关的关键词，可以找到Discuz论坛帖子采集和天涯论坛帖子采集两个比较有代表性的论坛类型，当然，如果小伙伴需要采集其他的论坛比如说百度贴吧、晋江文学论坛、新闻论坛等，可以借鉴这两个规则举一反三。

网站也有采集软件相关的视频教程。

以Discuz论坛为例，规则里面只采集了前三页，如果需要修改成采集更多页的话，可以在此处进行修改！
规则中采集的内容为发帖人、帖子标题、帖子内容、查看、回复、发帖内容等字段，小
伙伴们可以根据自己的需要增加或删除字段。

如果需要采集图片则可选择先采集图片的URL 超级链接，再去八爪鱼论坛上下载图片转化工具，将URL批量转换为图片URL。

全部设置完毕之后，点击下一步进入到单机采集调试的环节，来看看采集的成果吧。

天涯帖子采集规则如果要修改，也可以参照上面的方法依次类推。

小伙伴们还可以将八爪鱼采集软件运用到其他类型的论坛上。

八爪鱼数据采集月成交笔数教程

八爪鱼数据采集月成交笔数教程
八爪鱼是一款数据采集工具，可以用于自动化地采集网站上的各种数据。

下面是使用八爪鱼进行月成交笔数数据采集的教程：
步骤1：打开八爪鱼软件，并点击新建任务来创建一个新的数据采集任务。

步骤2：在任务设置页面，填写任务的基本信息，例如任务名称和网站的URL 地址。

步骤3：在页面内容设置页面，选择需要采集的数据所在的页面，并使用八爪鱼提供的选择器工具来选择数据所在的HTML元素。

步骤4：在数据字段设置页面，给数据字段命名并设置字段的提取规则。

例如，要提取月成交笔数，可以使用正则表达式或者XPath规则来匹配对应的数据。

步骤5：在数据导出设置页面，选择导出数据的格式和保存路径。

八爪鱼支持导出为Excel、CSV等格式。

步骤6：点击保存并运行任务，等待八爪鱼自动采集数据。

可以选择定时运行任务或者手动运行任务。

通过以上步骤，就可以使用八爪鱼进行月成交笔数数据采集。

根据实际情况，可
能需要进行一些调试和优化，以确保能够正确地采集到目标数据。

八爪鱼采集鼠标移动到此元素上教程

八爪鱼采集鼠标移动到此元素上教程
本教程给大家演示：遇到需要鼠标移动才能显示出需要数据的网站，如何在八爪鱼里面做规则进行抓取
教程示例网址为：
/nav.shtml?pid=36&mid=247&cid=252#a
采集需求：
采集需要移动到中标公告才会显示出来的公告数据
步骤1 点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会进入到流程设计页面并自动打开前面输入的网址。

鼠标移动到此元素上-图1：输入URL
鼠标移动到此元素上-图2：打开网页
步骤2 鼠标点击浏览器中的“中标公告”→在弹出的提示中选择更多操作→选择“鼠标移动到此元素上”
鼠标移动到此元素上-图3：点击“中标公告”，选择“更多操作”
鼠标移动到此元素上-图4：继续选择“鼠标移动到该元素上”
现在页面上展示的都是中标公告的数据，按照新手入门的方法创建循环即可
这里以提取公告标题作一个简单的演示
步骤3 鼠标点击公告标题→在提示框中选择“选中全部”→选择“采集以下链接的文本”
鼠标移动到此元素上-图5：点击公告标题，选择“选中全部”
鼠标移动到此元素上-图6：继续选择”采集以下链接文本“步骤4点击“保存并启动”，再在弹出的对话框中选择“启动本地采集”
鼠标移动到此元素上-图7：点击“保存并启动”，选择“启动本地采集”
系统会在本地电脑上开启一个采集任务并采集数据，任务采集完毕之后，会弹出一个采集结束的提示，这里需要的中标公告就顺利采集下来了
相关采集教程：
链家租房信息采集
58同城信息采集
百姓网商家采集
八爪鱼——70万用户选择的网页数据采集器。

文章采集软件使用方法

对于站长以及新媒体运营人员来说，文章采集是必须要掌握的一项功能。

通过文章采集一个是能很清楚的掌握自身行业中哪些类型的文章受用户的喜爱，其实是合理的采集高质量的爆款文章，建立自己的资料库，从而生产出优质的文章。

目前来说，有很多自媒体平台都是可以采集文章的，比如今日头条、百家号、搜狗微信、新浪微博等等，这些平台基本都有搜索功能，你可以根据关键词去采集自己需要的文章。

下面具体为大家介绍八爪鱼文章采集软件的使用方法。

步骤1：创建采集任务1）进入主界面选择，选择“自定义模式”文章采集软件使用步骤12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”文章采集软件使用步骤23）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的信息是这次演示要采集的内容，即为今日头条最新发布的热点新闻。

文章采集软件使用步骤3步骤2：设置ajax页面加载时间●设置打开网页步骤的ajax滚动加载时间●找到翻页按钮，设置翻页循环●设置翻页步骤ajax下拉加载时间1）网页打开后，需要进行以下设置：打开流程图，点击“打开网页”步骤，在右侧的高级选项框中，勾选“页面加载完成向下滚动”，设置滚动次数，每次滚动间隔时间，一般设置2秒，这个页面的滚动方式，选择直接滚动到底部；最后点击确定文章采集软件使用步骤4注意：今日头条的网站属于瀑布流网站，没有翻页按钮，这里的滚动次数设置将影响采集的数据量。

文章采集软件使用步骤5步骤3：采集新闻内容创建数据提取列表1）如图，移动鼠标选中评论列表的方框，右键点击，方框底色会变成绿色然后点击“选中子元素”文章采集软件使用步骤6注意：点击右上角的“流程”按钮，即可展现出可视化流程图。

2）然后点击“选中全部”，将页面中需要需要采集的信息添加到列表中文章采集软件使用步骤7注意：在提示框中的字段上会出现一个“X”标识，点击即可删除该字段。

文章采集软件使用步骤83）点击“采集以下数据”文章采集软件使用步骤9 4）修改采集字段名称，点击下方红色方框中的“保存并开始采集”文章采集软件使用步骤10步骤4：数据采集及导出1）根据采集的情况选择合适的采集方式，这里选择“启动本地采集”文章采集软件使用步骤11说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

【八爪鱼采集攻略】提取数据如何设置自定义抓取方式

【八爪鱼采集攻略】提取数据如何设置自定义抓取方式自定义抓取方式包含“从页面中提取数据”’、“从浏览器提取数据”、“生成数据”三部分。

八爪鱼提取数据-自定义抓取方式图11、从页面中提取数据（1）抓取元素的指定属性值：首先要先选中InnerHtml和OuterHtml查看要提取的属性值是否存在，再选中抓取元素的指定属性值。

例如源码：<a id="hot-comments-tab" class="on" href="comments">热门</a> 中，id、class、href就是A标签的属性，在下拉选项中选取要提取的属性名称，即可提取到该属性的属性值，演示如下：八爪鱼提取数据-自定义抓取方式图2八爪鱼提取数据-自定义抓取方式图3（2）抓取文本：提取网页中展示的内容，可见的文字信息。

（3）抓取地址：一般用于抓取图片地址或Iframe地址，首先字段的Xpath定位到的是IMG标签或者Iframe标签，提取其中的src属性值。

（4）抓取选中项的文本：配合循环下拉框试用，提取当前选中项的文本（5）抓取这个元素的OuterHtml，InnerHtml：提取网页源码（6）抓取值：一般用于抓取输入框的文字，首先字段的Xpath定位到的是input 标签，提取其中的value值，演示如下：八爪鱼提取数据-自定义抓取方式图4八爪鱼提取数据-自定义抓取方式图5（7）抓取超链接：首先字段的Xpath定位到的是A标签，从A标签中提取href的属性值。

演示如下：八爪鱼提取数据-自定义抓取方式图6八爪鱼提取数据-自定义抓取方式图7 2、从浏览器提取数据八爪鱼提取数据-自定义抓取方式图8（1）页面网址：同添加其他特殊字段中的抓取当前页面的网址效果（2）页面标题：同添加其他特殊字段中的抓取当前页面的标题效果（3）从页面源码里抓取：可直接用正则表达式提取网页源码里匹配到的数据3、生成数据八爪鱼提取数据-自定义抓取方式图9（1）生成固定的值：同添加其他特殊字段中的生成固定值效果，常用于发布到网站时设置发布的用户名，发布到的版块等固定字段（2）使用当前时间：同添加其他特殊字段中的使用当前时间效果，用于记录采集时间，此设置有可能会导致八爪鱼采集器去重功能检测失效相关采集教程：美团商家信息采集1688热门商品采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。

如何利用八爪鱼爬虫抓取数据

如何利用八爪鱼爬虫抓取数据听说很多做运营的同学都用八爪鱼采集器去抓取网络数据，最新视频，最热新闻等，但还是有人不了解八爪鱼爬虫工具是如何使用的。

所以本教程以百度视频为例，为大家演示如何采集到页面上的视频，方便工作使用。

常见场景：1、遇到需要采集视频时，可以采集视频的地址（URL），再使用网页视频下载器下载视频。

2、当视频链接在标签中，可切换标签进行采集。

3、当视频链接在标签中，也可采集源码后进行格式化数据。

操作示例：采集要求：采集百度视频上综艺往期视频示例网址：/show/list/area-内地+order-hot+pn-1+channel-tvshow操作步骤：1、新建自定义采集，输入网址后点击保存。

注：点击打开右上角流程按钮。

2、创建循环翻页，找到采集页面中下一页按钮，点击，执行“循环点击下一页”。

在流程中的点击翻页勾选Ajax加载数据，时间设置2-3秒。

3、创建循环点击列表。

点击第一张图片，选择“选中全部”（由于标签可能不同，会导致无法选中全部，可以继续点击没被选中的图片）继续选择循环点击每个元素4、进入详情页后，点击视频标题（从火狐中可以看到视频链接在A标签中，如图所示），所以需要手动更换到相应的A标签。

手动更换为A标签：更换为A标签后，选择“选中全部”，将所有视频标题选中，此时就可以采集视频链接地址。

5、所有操作设置完毕后，点击保存。

然后进行本地采集，查看采集结果。

6、采集完成后将URL导出，使用视频URL批量下载工具将视频下载出来就完成了。

相关采集教程：公告信息抓取/tutorial/hottutorial/qita/gonggao网站源码抓取/tutorial/hottutorial/qita/qitaleixing网页抓取工具新手入门/tutorial/xsksrm八爪鱼网站抓取入门功能介绍/tutorial/xsksrm/rmgnjsajax网页数据抓取/tutorial/gnd/ajaxlabel模拟登录并识别验证码抓取数据/tutorial/gnd/dlyzmxpath抓取网页文字/tutorial/gnd/xpath八爪鱼抓取AJAX滚动页面爬虫教程/tutorial/ajgd_7网页采集提取数据教程，以自定义抓取方式为例/tutorial/zdytq_7八爪鱼——90万用户选择的网页数据采集器。

58电话八爪鱼采集图文攻略

用八爪鱼采集软件如何采集电话号码的详细教程遇到图片形式的电话号码，我们要如何通过八爪鱼采集器进行采集，详细的操作步骤如何，八爪鱼采集软件的规则市场内，有关电话号码采集的相关规则。

首先，先去规则市场内搜索下，有没有关于电话号码的相关规则。

对于新用户来说，除了先自行在网站上看视频教程之外，还应该多练习规则的做法，最简单的办法就是先去规则市场内找个相关的规则跟着演练一次。

通过搜索58或电话号码的关键词，我们可以在规则市场内找到与58相关的采集规则目前有3个，一个是58的电话号码采集，一个是58的简历采集。

本文我们只介绍58的电话号码采集规则。

第二步，将规则下载下来，规则下载的时候需要消耗积分，积分可以通过参加活动获取，有关积分活动的规则可以自行去网站了解第三步，在快速开始中，选择导入任务，将规则导入进去。

导入后的规则需要修改一下里面的部分设置。

先要修改网址，规则里面放入的是示范网址，也就是深圳二手汽车交易的所有电话号码，那么我们需要把这个列表更换下，如下图注：有的小伙伴会希望在一个规则内采集结构相同的不同类目的多个网址，其实这也是可以实现的，只需要再上图中选择“将网址作为循环地址”，有关多网址的设置我们将在另外的文中单独介绍，在此不赘述了！第四步，提取的数据字段修改，选择流程框内的【提取数据】，可以在右边的字段列表中进行增加或删除字段，修改完成点击【保存】即可。

第五步，单机调试任务，修改完配置后，我们先通过单机调试任务，看看是否有数据采集出来。

如果没有，则表示配置设置有问题，需要回到第三步第四步重新修改调整！第六步，将图片URL转换为图片，由于58上面的电话基本都是图片形式，而不是文本形式的电话号码，所以我们需要将采集到的电话号码图片URL进行转换，第五步中下载到的URL导出为EXCEL，在前往八爪鱼论坛下载图片转换工具，将EXCEL导入到转换工具中，即可完成对图片的批量转换。

电话号码就采集完成了！有关更多的网页数据采集规则，小伙伴可以自行前往八爪鱼采集器内规则市场下载！。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

八爪鱼采集器高阶教程
手动创建翻页循环及下一页死循环解决方法

手动创建翻页循环
相信很多朋友都碰到过这种情况，明明是一个翻页按钮，但是点击后没有
创建翻页人选项，很多人会以为这种网页就不能做翻页了，其实这种类型的网
页我们可以通过手动创建出一个翻页循环来解决。接下来就教大家如何手动创
建翻页循环。

首先我们打开一个无法自动创建翻页的网页，如图中所示，当我们点击下一页
按钮后，跳出的执行框中并没有循环点击的选项出现；
针对这种类型的网页，我们可以通过下面几个简单的步骤进行循环翻页的
手动创建：
1)选择点击这个元素，添加一个点击步骤到流程中

系统添加点击步骤到流程中后，点击自定义，进入自定义定位方式界面
2)将图中红色方框中下一页的Xpath复制出来，然后把创建的点击步骤删除，
因为我们让系统自动创建点击步骤只是为了得到下一页的Xpath，如果是懂
Xpath的朋友可以省掉这个步骤。自动生成的XPath只能对应当前网页，翻

页后的页面格式有可能不能应对，所以需要自己修改。

3)接下来我们创翻页循环，先拖一个循环步骤到流程中，打开高级选项，勾选
点击单个元素，将之前复制的下一页人Xpath填到单个元素输入框中，点击
保存。
4)拖入一个点击步骤到，打开高级选项，勾选上点击当前循环中设置的元素，
点击保存。

翻页循环就建好了，这种类型的翻页问题就可以通过上面介绍的方法解决。
接下来我们再看一下：下一页死循环的问题。
下一页死循环解决方法
什么是下一页死循环？
有些网站可能在我们用系统做好的规则进行采集的时候，明明已经采集到
最后一页了，就是不终止跳出循环，一直在最后一页循环采集，这种情况其实
是由于xpath定位不对导致的，这种翻页情况我们称为下一页死循环，它可以通
过我们对xpath的修改来解决。

当我们采集出现问题的时候，我们可以通过规则流程来找到问题所在。
下面的规则是直接按照新手入门的步骤做的

如上图：
浏览器中要采集的数据已经在最后一页了，可以我们在循环列表中依旧能找到
下一页的按钮，代表一直都可以点击这个按钮进行采集，循环是结束不了的
点开循环列表的高级设置按钮，可以看到下一页的xpath如下图所示：
把这个xpath复制到火狐浏览器的Firebug里面进行定位，我们发现在第一页是
的确可以定位下一页的，可以看到这个xpath在火狐里面每一页都能定位，
再看一下第一页（class="next"）和第四页（class="no_next"）里面源码的区别
可以看到第一页和第三页下一页的class属性是不一样的，我们只需要前面几页
的下一页能正确定位，但是最后一页是不需要的，这样可以直接用class来区别。
我们可以手动在火狐浏览器里面直接写，只需要改li里面的改成li[@class=’next’]
就可以

然后将这.//*[@id='gkaTable_page']/table/tbody/tr/td/div/ul/li[@class='next']再
复制到八爪鱼操作框里面，点击保存，如下图：
配置完成之后进行单机采集就可以看到规则能正常完成采集了

今后大家遇到这种下一页死循环这一类网页的翻页问题就可以参考这个示例的
方法