八爪鱼采集器使用进阶教程共24页文档

合集下载

网站抓字软件如何使用

网站抓字软件如何使用网站上有海量的文字信息，有时我们想提取采集下来。

有没有可以让工作简单的网站抓字软件供大家使用呢？下面给大家教一款软件是如何实现这个功能的。

八爪鱼是一款通用的网页数据采集器，可采集互联网上的公开数据。

用户可以设置从哪个网站爬取数据，爬取那些数据，爬取什么范围的数据，什么时候去爬取数据，爬取的数据如何保存等等。

言归正传，本文将以搜狗微信的文章正文采集为例，讲解使用八爪鱼采集网页文章正文的方法。

文章正文采集，主要有两大类情况：一、采集文章正文中的文本，不含图片；二、采集文章正文中的文本和图片URL。

示例网站：/使用功能点：Xpath /search?query=XPath判断条件/tutorialdetail-1/judge.html分页列表信息采集/tutorial/fylb-70.aspx?t=1AJAX滚动教程/tutorialdetail-1/ajgd_7.htmlAJAX点击和翻页/tutorialdetail-1/ajaxdjfy_7.html一、采集文章正文中的文本，不含图片具体步骤：步骤1：创建采集任务1）进入主界面，选择“自定义模式”网站抓字软件使用步骤12）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”网站抓字软件使用步骤2步骤2：创建翻页循环1）在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。

网页打开后，默认显示“热门”文章。

下拉页面，找到并点击“加载更多内容”按钮，在操作提示框中，选择“更多操作”网站抓字软件使用步骤32）选择“循环点击单个元素”，以创建一个翻页循环网站抓字软件使用步骤4由于此网页涉及Ajax技术，我们需要进行一些高级选项的设置。

选中“点击元素”步骤，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒”网站抓字软件使用步骤5注：AJAX即延时加载、异步更新的一种脚本技术，通过在后台与服务器进行少量数据交换，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

八爪鱼系统操作文档

八爪鱼系统操作1 进入系统：开机后出现输入密码画面输入正确的密码后点OK 开始密码为1 2 3 进入系统可以修改。

2 上分：在要上分的机号栏对应的上分数栏上点击就可以增加要上分的分数。

每点一次增加一定的分数增加的分数大小可点击左上角的+10 + 50 +100 +1000 +10000来改变。

当选择好上分数后点出本栏旁边的>>按纽既完成一次上分。

若选择的上分数有误可点击按纽清除上分数据。

3退分：在要退分的机号栏对应的退分数栏上点击就可以增加要退分的分数。

第点一次增加一定的分数增加的分数大小可点击左上角+10+50 +100 +1000 +10000来改变。

当选择好退分数后点出本栏旁边的>>按纽即完成一次退分。

若选择的退分数有错误可点击X 按纽清除退分数据。

退分数不会超过该机台的总分。

4 退出：/当服务员要暂时离开时点击该处即可锁机输入开机密码后就可继续操作。

5 打印：输入密码进入打印其中可进行以下操作。

1 清除帐目重新游戏清除各分机的总上分、总退分、总押分、总赢分等帐目轮数和局数从头开始。

2 查明细帐目查询和统计各分机的总上分、总退分、总押分、总赢分等帐目并累加统计。

点击打印即可在打印机上打出帐目清单。

要在后台机器上查帐目3 上分界面设置显示机台总上分选择上分机是否在上分画面显示机台总上分数。

显示总分选择上机分是否在上分两面显示机台总分。

4 机台界面设置按横式显示牌路选择是按横式还是按竖式显示牌路。

显示网上押分选择显示网上实际押分还是虚拟押分。

押分后要按确认键选择押分后是否要按确认键。

和中奖时退下闲庄押分选择开出和中奖时下一局是否要自动退下闲庄的押分。

牌路从左到右选择牌路的排列方向。

5 修改游戏参数修改游戏参数方法是用鼠标点击要修改的参数项然后输入新的值参数如下每局时间每局倒计时用的时间押分键值每按一次押分键所增加的押分数休息时间每轮牌后的休息时间庄家抽水率开出庄赢时奖分的抽水率 95——100 每天开牌轮数每天开牌的轮数 5—12 押分的下限和上限值每个门子押分的最低分和最高分其中和的上限是指所有机台和押分的总数的上限。

八爪鱼采集器使用方法图解

八爪鱼采集器使用方法图解：
1、打开八爪鱼采集器的客户端,登陆软件之后新建一个任务,打开你要采集的网站地址;这里我自己示范的原创设计手稿的采集;
2、进入到设计工作流程环节,在界面浏览器那输入你要采集的网址,点击打开,你就能看到你要采集的网站界面,由于这个网址存在多页内容需要采集,我们再设置采集规则的时候,可以先建立翻页循环,先把鼠标选择页面上的下一页按钮,在弹出的任务对话框,选择高级选项中的循环点击下一页,软件会自动建立一个翻页循环;
3、建好翻页循环好,就是采集当前页上的内容,我要采集图片的URL,就选中一个图片,然后单击,软件会自动弹出对话框,先建立一个元素循环列表;当前页面的所有元素都被抓取后,循环列表则建立完成;
4、设置要抓取的内容,选择元素循环列表中的任意一个元素,在浏览器内找到该元素对应的图片,点击后弹出对话框,选择抓取这个元素的图片地址为字段1,同时我为了方便识别,还抓取了字段2为图片标题名称,设置原理同图片地址;
5、检查一下,翻页循环框应该将产品循环框嵌套在内,表示,先抓取完当前一整页的图片URL后再翻页;
6、设置执行计划后,就可以开始采集了,单击采集的话,直接点击完成步骤下的检查任务,开始运行任务;采集完毕后可以直接下载成EXCEL的文件;
7、将URL转换为图片,这里用八爪鱼图片转换工具,将EXCEL导入之后,就可以自动等待
系统将图片下载下来了
8、。

文章采集软件使用方法

对于站长以及新媒体运营人员来说，文章采集是必须要掌握的一项功能。

通过文章采集一个是能很清楚的掌握自身行业中哪些类型的文章受用户的喜爱，其实是合理的采集高质量的爆款文章，建立自己的资料库，从而生产出优质的文章。

目前来说，有很多自媒体平台都是可以采集文章的，比如今日头条、百家号、搜狗微信、新浪微博等等，这些平台基本都有搜索功能，你可以根据关键词去采集自己需要的文章。

下面具体为大家介绍八爪鱼文章采集软件的使用方法。

步骤1：创建采集任务1）进入主界面选择，选择“自定义模式”文章采集软件使用步骤12）将上面网址的网址复制粘贴到网站输入框中，点击“保存网址”文章采集软件使用步骤23）保存网址后，页面将在八爪鱼采集器中打开，红色方框中的信息是这次演示要采集的内容，即为今日头条最新发布的热点新闻。

文章采集软件使用步骤3步骤2：设置ajax页面加载时间●设置打开网页步骤的ajax滚动加载时间●找到翻页按钮，设置翻页循环●设置翻页步骤ajax下拉加载时间1）网页打开后，需要进行以下设置：打开流程图，点击“打开网页”步骤，在右侧的高级选项框中，勾选“页面加载完成向下滚动”，设置滚动次数，每次滚动间隔时间，一般设置2秒，这个页面的滚动方式，选择直接滚动到底部；最后点击确定文章采集软件使用步骤4注意：今日头条的网站属于瀑布流网站，没有翻页按钮，这里的滚动次数设置将影响采集的数据量。

文章采集软件使用步骤5步骤3：采集新闻内容创建数据提取列表1）如图，移动鼠标选中评论列表的方框，右键点击，方框底色会变成绿色然后点击“选中子元素”文章采集软件使用步骤6注意：点击右上角的“流程”按钮，即可展现出可视化流程图。

2）然后点击“选中全部”，将页面中需要需要采集的信息添加到列表中文章采集软件使用步骤7注意：在提示框中的字段上会出现一个“X”标识，点击即可删除该字段。

文章采集软件使用步骤83）点击“采集以下数据”文章采集软件使用步骤9 4）修改采集字段名称，点击下方红色方框中的“保存并开始采集”文章采集软件使用步骤10步骤4：数据采集及导出1）根据采集的情况选择合适的采集方式，这里选择“启动本地采集”文章采集软件使用步骤11说明：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能，云采集在网络中进行采集，无需当前电脑支持，电脑可以关机，可以设置多个云节点分摊任务，10个节点相当于10台电脑分配任务帮你采集，速度降低为原来的十分之一；采集到的数据可以在云上保存三个月，可以随时进行导出操作。

八爪鱼采集器使用入门教程

一、打开网页：打开网页，一般指我们所要采集数据的网站，正如平时我们浏览该网站的数据信息时需要输入URL一样二、循环翻页：循环翻页，指一般我们需要快速收集整合时，是需要做到翻页循环的，循环翻页的本质是一个单个元素的循环
三、提取数据
正式的采集步骤
四、点击元素循环本身是不会有任何执行操作的，如果要实现循环翻页，则需要一个点击元素来和循环产生联动
流程设计步骤
流程设计步骤：在八爪鱼采集器中，一共有11个流程设计操作，其中分为基本步骤和进阶步骤，划分为以下：基本步骤：基本步骤本身是应用较多的流程设计操作，通常来说，要实现一个网页的数据快速整理与采集，这些步骤是必不可少的，基本步骤如下： 1）打开网页 2）点击元素 3）循环 4）提取数据进阶步骤：进阶步骤，是指除基本步骤外，我们需要通过下列操作来辅助完成我们的数据采集，例如：有时候我们采集的数据需要先输入文本才能进行采集，进阶步骤如下： 1）输入文字 2）识别验证码 3）切换下拉选项 4）判断条件 5）移动鼠标到元素上 6）结束循环 7）结束流程
操作基本信息及高级选项
在八爪鱼中，流程操作由基本信息与高级选项两部分组成一、基本信息：基本信息一般会将该操作流程的基本信息显示出来，例如：打开网页会显示你打开网页的URL，点击元素会显示你点击的元素文本等二、高级选项：高级选项，可以设置一些额外的选项设置，以便辅助规则正确有效执行，例如：执行前等待、元素在iframe里等
二、任务规则：
任务规则，就是指根据特定的网页，按人用浏览器去访问网页的过程制定好的自动化任务程序，一般来说，一个类型相似的网站对应一个任务规则三、任务状态： 1)任务生命周期:可执行状态、等待状态、运行中状态、已完成状态、已停止状态 2）运行中状态：1）本地采集状态、云采集状态

八爪鱼采集器入门教程详细说明

八爪鱼采集器入门教程详细说明刚接触八爪鱼的时候，作为一个文科运营喵，还是一脸懵逼的。

爬虫是什么？采集器是什么？八爪鱼采集器怎么工作的？怎么就能采集到数据了？八爪鱼的这些高级选项，该怎么设置？一堆问题的我，上八爪鱼官网（/），啃了各种产品说明、各种教程、然后边看教程边操作......相对市面上其他采集器而言，八爪鱼的可视化流程已经降低了操作难度，即使是没有技术背景的人，也挺容易入门的。

但是，学习初期难免感到毫无头绪。

本文整理了比较系统的八爪鱼详细入门说明，希望对大家有用。

要系统的学习并掌握八爪鱼，完成从入门到采集大神的历练，需要经过以下几个阶段：一、理解八爪鱼工作的核心原理二、了解八爪鱼入门词汇（有一个初步印象）三、采集基本流程教程（明白整体架构）四、细致学习功能点教程+实战案例教程（开始实际操作）一、理解八爪鱼工作的核心原理八爪鱼采集的核心原理是：模拟人浏览网页，复制数据的行为，通过记录和模拟人的一系列上网行为，代替人眼浏览网页，代替人手工复制网页数据，从而实现自动化从网页采集数据，然后通过不断重复一系列设定的动作流程，实现全自动采集大量数据。

理解核心原理是十分必要的，只有理解了工作原理，再结合实际操作仔细体会，才会取得事半功倍的效果。

二、了解八爪鱼入门词汇（有一个初步印象）要掌握的入门词汇主要有：积分、规则、云加速、云优先、URL、单机采集、云采集、定时采集、URL循环、自动导出、COOKIE、XPATH、HTML八爪鱼入门词汇详细资料，请点击以下链接查看：/doc-wf三、了解采集基本流程教程（明白整体架构）八爪鱼在配置规则、采集数据的时候，主要会经过以下几个步骤：打开网页、点击元素、输入文本、提取数据、循环、下翻下拉列表、条件分支、鼠标悬停。

针对这些步骤，八爪鱼内置了很多高级选项。

在针对具体网页的采集过程中，网页结构、网页情况是不一样的。

我们需要观察网页结构，相应地在八爪鱼中进行高级选项的设置。

八爪鱼产品使用手册

八爪鱼产品使用手册目录1关于八爪鱼 (2)2Cookie （更多内容详见Cookie 视频） (2)2.1 Cookie诞生 (2)2.2 Cookie概述 (2)2.3 Cookie工作原理 (3)3Xpath、Html (3)3.1 Xpath、Html概念 (3)3.2 Html结构 (4)3.3 Html标签、元素、节点 (4)3.4 Html常见标签 (5)3.5 Html常见属性 (6)3.6 Xml、Xpath、Html关系和区别 (7)4常见问题 (7)5常见软件操作教程 (10)5.1 采集单个网页 (10)5.2 采集单个列表页面 (10)5.3 单网页表格信息采集 (10)5.4 采集单网页列表详细信息 (10)5.5 采集分页列表 (10)5.6 采集分页列表详细信息 (10)5.7 采集分页列表+ajax延时设置 (10)5.8 单个文本输入及各种登录方式采集 (11)5.9 Cookie登录 (11)5.10 文本循环输入 (11)5.11 循环切换下拉框 (11)5.12 xpath入门1 (11)5.13 xpath入门2 (11)5.14 一二页重复循环采集 (11)关于八爪鱼八爪鱼·大数据，通过自主创新研发，以分布式云平台架构为产品核心，帮助客户通过在极短的时间内，通过简单操作即可获取想要的数据，并以结构化数据展示，为企业数据挖掘与数据分析提供基础数据源。

于2015年1月，获得国家重点软件企业上市公司“拓尔思”投资。

Cookie （更多内容详见Cookie 视频）Cookie诞生当某个用户打开浏览器发出页面请求时，web服务器只是进行简单相应，然后就关闭与该用户的连接。

所以当用户每发起一个打开网页请求到web服务器的时候，无论是否是第一次打开同一个网页，web服务器都会把这个请求当作第一次来对待，那这样的缺陷可想而知，比如每次打开登录页面的时候都需要输入用户名、密码。

八爪鱼爬虫采集方法

八爪鱼爬虫采集方法网页爬虫是一个比较热门的网络词，因为大数据时代，各行各业的从业人员都需要大量的数据信息，通过分析这类数据来优化升级自己的产品，从而满足所有消费者的需求，从而更好地抢占市场。

目前市面上比较好用的爬虫工具首推八爪鱼采集器，所以今天就教大家八爪鱼爬虫工具的使用方法，让你轻松get网络爬虫。

文章内示例网址为：/guide/demo/genremoviespage1.html自定义模式采集步骤：步骤1：首先打开八爪鱼采集器→找到自定义采集→点击立即使用自定义模式-图1步骤2：输入网址→设置翻页循环→设置字段提取→修改字段名→对规则进行手动检查→选择采集类型启动采集自定义模式-图2：输入网址自定义模式-图3：设置翻页循环自定义模式-图4：创建循环列表自定义模式-图5：提取字段自定义模式-图6：修改字段名注意点：1.设置翻页循环：观察网页底部有没有翻页图标，如果有并且需要翻页则点击翻页图标，操作提示中循环点击下一页表示循环翻页，可以在循环中设置翻页次数，设置几次则采集网页最新内容几页。

采集该链接的文本选项则会出现提取数据步骤，提取下一页对应的文本；点击采集该链接地址步骤选项会出现提取数据步骤，提取当前字段对应的链接地址。

点击该链接则会出现点击元素步骤，点击该元素一次。

2.设置字段提取：先对网页内容进行分区块，思路为循环各区块，再从循环到的区块中提取每个字段内容，所以设置时先点击2-3各区块，八爪鱼会自动选中剩余所有区块，点击采集以下元素文本会出现循环提取数据步骤，实现对区块的循环采集，但是此时每个区块循环时只会将区块内文字合并为一条提取，此时我们删除该字段并手动添加需要提取的所有字段；点击循环点击每个元素则会出现循环点击元素步骤，对每个区块进行一次点击，该示例中区块点击没有效果，所以该示例中循环点击不存在效果。

如果选择错误，或者出现的内容列表不是你需要的，可以在操作提示中点击区块后的垃圾桶图标进行删除操作，或者点击取消选择，重新设置。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •使用循环
与文本循环配合使用，达到循环输入文本效果 •自定义
设置Xpath路径表达式，根据用户需求自定义流程步骤位置
识别验证码
基本信息：
•识别验证码流程步骤名称
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
循环本身不产生任何操作，只负责建立循环，与
循环产生联动的是勾选了使用循环的流程步骤，来达到循环的效果循环/提取数据
与上述类似，循环本身不会产生任何操作，真正与循环产生联动的是勾选了使用循环的提取数据
流程结束图标，此图片代表一个任务执行完成到循环结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项循环Ⅰ第二项循环Ⅰ第三项
。
。
。
循环Ⅰ第N项。
。
。
循环Ⅰ结束
循环Ⅱ第一项循环Ⅱ第二项
一起使用 •验证码图片Xpath
填写Xpath路径，告诉八爪鱼验证码图片位置 •验证码输入框Xpath
输入框Xpath，用于配合验证码图片Xpath，正确输入验证码当前验证码
用于流程设计时调试规则用
判断条件
基本信息：
•判断条件判断条件分为此次判断条件整体，
和各具体条件分支条件分支
按不同分支条件执行不同流程步骤
•或者出现元素填写Xpath路径，配合执行前等待一
起使用，在等待时间内元素出现则不再继续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定字段等特殊字段
自定义数据字段（修改抓取方式，定位方式即XPath，格式化数据删除选中字段将选中字段上移、下移
灵活运用
表、固定元素列表循环一起使用 •开新标签
新标签打开网页页面 •滚动页面
内置浏览器滚动次数与方式 •AJAX加载
页面自动刷新时间，AJAX超时为设置时间定位锚点
设置后页面自动跳置锚点 •激活重试
按条件尝试重新打开网页
循环
基本信息：
•循环列表循环操作的列表元素
高级选项：
•执行前等待流程步骤执行前等待时间
提取数据拥有，用于初步格式化数据，一般用正则表达式处理 •自定义数据合并方式
提取数据拥有，用于选择是否追加字段
流程设计
流程设计基本原理Ⅰ：自上而下瀑布流设计
打开网页循环翻页
流程开始图标，从此图标开始执行工作流程打开网页
按瀑布流原理，执行到此处，此时八爪鱼内核浏览器会执行打开设置的页面Url 翻页循环/点击翻页
一般来说，一个常用列表信息的网站，只需要打开网页、循环翻页、点击翻页、列表循环、提取数据等流程步骤即可完成采集。但碰到以下场景时，我们需要一些其他流程步骤来辅助采集，因为灵活运用各流程步骤，对我们采集十分重要： •输入文本
打开网页，需要输入文本检索方能显示数据信息 •验证码识别
打开网页或提取数据等操作需要输入验证码，方可进行下一步流程操作 •判断条件
八爪鱼采集器
销售客服部
目录
一、流程步骤：基本信息与高级选项二、灵活运用：衔接与自定义流程步骤三、流程设计：原理及其运行逻辑四、常见问题：流程设计常见问题五、扩展延伸：Html、Xpath、正则
流程步骤
默认步骤自定义
操作名基本信息
高级选项
操作名：
流程步骤名称，可自定义操作名
基本信息：
流程步骤基本信息，例如：打开网页URL地址；点击元素标签名、文本；循环列表元素
一起使用 •使用循环
配合单个元素循环、不固定元素列表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间，AJAX超时为其设置时间
自定义流程步骤
自定义抓取方式提取数据拥有，用于确定是抓取元
素文本、HTML还是元素属性等 •自定义定位元素方式（XPath路径）
提取数据、点击元素、输入文字、切换下拉选项、循环、移动鼠标到元素上拥有，用来精确流程步骤的元素路径，以便精准的执行流程步骤 •格式化数据
打开网页或提取数据等操作需要使用判断条件筛选下方可决定是否采集 •移动鼠标到元素上
提取数据需要移动鼠标到元素上，数据方展现出来 •切换下拉选项
循环需要切换下拉选项，才可以进行循环
输入文本
基本信息：
•输入框输入框信息
要输入的文本需要在输入框输入的文本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•页面Url 打开网页的网址
高级选项：
•阻止弹窗阻止弹出窗口
•使用循环配合URL循环一起使用
•滚动页面内置浏览器滚动次数与方式
•缓存设置 1.清除缓存 2.Cookie
•激活重试按条件尝试重新打开网页
点击元素
基本信息：
•要点击元素点击元素基本信息
高级ห้องสมุดไป่ตู้项：
•使用循环配合单个元素循环、不固定元素列
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •使用循环
配合单个元素循环、不固定元素列表、固定元素列表循环一起使用 •AJAX加载
页面自动刷新时间，AJAX超时为其设置时间
切换下拉选项
基本信息：
•下拉框下拉框的基本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •不判断，总是执行该分支
判断条件是从左到右执行 •当前包含文本
填写连续的文本字符串当前页面包含元素
填写Xpath路径
移动鼠标到元素上
基本信息：
•元素要移动鼠标到元素的基本信息
高级选项：
•执行前等待流程步骤执行前等待时间
•或者出现元素填写Xpath路径，配合执行前等待
一起使用 •元素在Iframe里
填写Iframe的Xpath，解决框架网页问题 •循环方式
五种循环方式，解决各种循环场景 •满足以下条件时退出循环
限制循环次数
提取数据
基本信息：
•字段所提取的数据信息
高级选项：
•执行前等待流程步骤执行前等待时间
高级选项：
常用流程步骤都拥有高级选项，高级选项内有基本功能外，其他一些用于特定应用场景的功能
自定义：
按用户需求去设置流程步骤路径位置和操作方式，例如：修改提取数据字段的Xpath路径
默认操作：
八爪鱼默认生成操作，即便不设置，在特定流程步骤中，也会隐式生效，例如：流程开始、结束流程
打开网页
基本信息：