八爪鱼xpath入门教程以及定位元素实例

合集下载

淘宝店铺采集软件使用方法

淘宝店铺采集软件使用方法

淘宝店铺采集软件使用方法淘宝上有很多店铺数据,比如销量,主营产品,宝贝数量,店铺评分等等,合理的利用好这些数据,有助于找到自己的竞争对手,了解自身与竞争对手的差别,那么应该如何去采集这些店铺数据呢。

在这里为大家推荐一款采集软件八爪鱼,只需简单配置规则,就能实现自定义采集任何网站数据,包括淘宝店铺的各种数据,下面介绍八爪鱼采集软件采集淘宝店铺的使用方法。

采集网站:https:///search?app=shopsearch&q=%E6%B1%9F%E5%B0%8F%E7%99% BD&imgfile=&commend=all&ssid=s5-e&search_type=shop&sourceId=tb.index&spm=a21bo.2017 .201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306步骤1:创建淘宝店铺信息采集任务1)进入主界面,选择“自定义采集”淘宝店铺信息采集步骤12)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”淘宝店铺信息采集步骤2步骤2:创建翻页循环1)打开网页之后,找到页面最下方的“下一页”创建翻页循环,如下图淘宝店铺信息采集步骤3点击下一页,在操作提示中选择循环点击下一页,以此生成循环翻页。

注意:有时点击下一页并不会出现循环点击下一页,但若此时出现循环点击单个链接,则可以选则循环点击单个链接(或元素),其功能和循环点击下一页相同。

淘宝店铺信息采集步骤4步骤3:创建循环列表1)将鼠标移动到页面上方(蓝色表示点击后会选中的元素),选择页面某一行数据(包含的字段进可能全),如图蓝色部分,然后点击。

淘宝店铺信息采集步骤52)点击后继续选择下一行同类型的数据,如图:淘宝店铺信息采集步骤6再次点击,操作提示中出现已选中XX个元素,以下是列表。

豆瓣图书爬虫使用教程

豆瓣图书爬虫使用教程

采集网站:https:///tag/%E5%B0%8F%E8%AF%B4?start=0&type =T规则下载:使用功能点:●分页列表及详细信息提取/tutorial/fylbxq7.aspx?t=1●Xpath/tutorialdetail-1/xpath1.html步骤1:创建采集任务1)进入主界面,选择“自定义模式”2)将要采集的网址URL ,复制粘贴到网址输入框中,点击“保存网址”豆瓣图书信息采集步骤21)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。

将页面下拉到底部,点击“后页>”按钮,在右侧的操作提示框中,选择“更多操作”豆瓣图书信息采集步骤32)选择“循环点击单个链接”豆瓣图书信息采集步骤4步骤3:创建列表循环1)移动鼠标,选中页面里的第一个图书链接。

选中后,系统会自动识别页面里的其他相似链接。

在右侧操作提示框中,选择“选中全部”豆瓣图书信息采集步骤52)选择“循环点击每个链接”,以创建一个列表循环豆瓣图书信息采集步骤61)在创建列表循环后,系统会自动点击第一个图书链接,进入图书详细信息页。

点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”。

我们在这里,采集了图书名称、图书出版信息、内容简介、作者简介豆瓣图书信息采集步骤72)字段信息选择完成后,选中相应的字段,可以进行字段的自定义命名,修改完成后,点击“确定”。

完成后,点击左上角的“保存并启动”,启动采集任务豆瓣图书信息采集步骤83)选择“启动本地采集”豆瓣图书信息采集步骤94)采集完成后,会跳出提示,选择“导出数据”。

选择“合适的导出方式”,将采集好的数据导出。

这里我们选择excel作为导出为格式,数据导出后如下图豆瓣图书信息采集步骤10步骤5:修改Xpath通过上述导出的数据我们可以发现,部分图书的“内容简介”、“作者简介”没有采集下来(如:《解忧杂货店》图书详情页的“内容简介”采集下来了,但是《雪落香杉树》图书详情页的“内容简介”并未采集下来)。

八爪鱼如何通过xpath实现自定义定位元素

八爪鱼如何通过xpath实现自定义定位元素

八爪鱼如何通过xpath实现自定义定位元素定位元素:八爪鱼通过Xpath来实现元素的定位。

适用情况:八爪鱼自动定位方式不能满足需求的情况。

下面演示如何通过自定义定位元素方式来修改元素匹配的Xpath,借此修改提取元素步骤采集到的数据。

示例网址:/guide/demo/genremoviespage1.html 步骤一:点击自定义采集下的立即使用→输入网址并保存自定义定位元素方式-图1自定义定位元素方式-图2步骤二:点击采集位置→循环采集元素→补充并修改提取元素步骤自定义定位元素方式-图3自定义定位元素方式-图4说明:循环采集元素会采集所有信息,我们在补充并修改提取元素步骤进行了删除第一个字段操作,同时添加了我们需要的正确字段。

步骤三:修改自定义定位元素方式选中要修改的字段→点击高级选项中自定义数据字段(如下图)→点击自定义定位元素方式进入自定义定位元素方式后,我们在下图红框处修改Xpath自定义定位元素方式-图6其中元素匹配的Xpath是指可以通过这个Xpath路径在网页中直接找到所需数据的路径;相对Xpath指相对于循环Xpath的路径,将循环中的Xpath接上相对Xpath路径就可以生成一条直接匹配元素的路径。

下面进行演示。

演示中使用了火狐浏览器的Firebug插件,详细使用情况请到Xpath使用教程中查看。

自定义定位元素方式-图7自定义定位元素方式-图8自定义定位元素方式-图9自定义定位元素方式-图10如图,示例中将循环中的Xpath和字段对应的相对Xpath接在一起,在浏览器中可以查找到所有的标题。

假如我们想通过Xpath 的修改采集其他的字段怎么采集呢?下面演示如何通过自定义定位元素方式修改标题字段的Xpath 使之采集的内容变成类型中的内容步骤1:找出类型所在的Xpath 是怎样的自定义定位元素方式-图11自定义定位元素方式-图12自定义定位元素方式-图13说明:我们知道循环中的内容为每个需要采集的内容所在的位置,我们将循环中的Xpath 复制进入浏览器也看到匹配到了所有电影的框。

八爪鱼采集器使用进阶教程共24页文档

八爪鱼采集器使用进阶教程共24页文档
•或者出现元素 填写Xpath路径,配合执行前等待
一起使用 •使用循环
与文本循环配合使用,达到循环输 入文本效果 •自定义
设置Xpath路径表达式,根据用户 需求自定义流程步骤位置
识别验证码
基本信息:
•识别验证码 流程步骤名称
高级选项:
•执行前等待 流程步骤执行前等待时间
•或者出现元素 填写Xpath路径,配合执行前等待
循环本身不产生任何操作,只负责建立循环,与
循环产生联动的是勾选了使用循环的流程步骤,来达到 循环的效果 循环/提取数据
与上述类似,循环本身不会产生任何操作,真正 与循环产生联动的是勾选了使用循环的提取数据
流程结束图标,此图片代表一个任务执行完成到 循环 结束
提取数据
运行逻辑
循环Ⅰ
循环Ⅰ第一项 循环Ⅰ第二项 循环Ⅰ第三项



循环Ⅰ第N项 。


循环Ⅰ结束
循环Ⅱ第一项 循环Ⅱ第二项
一起使用 •验证码图片Xpath
填写Xpath路径,告诉八爪鱼验证 码图片位置 •验证码输入框Xpath
输入框Xpath,用于配合验证码图 片Xpath,正确输入验证码 当前验证码
用于流程设计时调试规则用
判断条件
基本信息:
•判断条件 判断条件分为此次判断条件整体,
和各具体条件分支 条件分支
按不同分支条件执行不同流程步骤
•或者出现元素 填写Xpath路径,配合执行前等待一
起使用,在等待时间内元素出现则不再继 续等待 •使用当前循环
与循环配合使用 •添加其他特殊字段
网页标题、时间、当前时间、固定 字段等特殊字段
自定义数据字段(修改抓取方式, 定位方式即XPath,格式化数据 删除选中字段 将选中字段上移、下移

八爪鱼xpath入门教程以及定位元素实例

八爪鱼xpath入门教程以及定位元素实例

xpath入门教程以及定位元素实例本文用来讲解xpath的入门基础,本教材是xpath入门2,建议大家从入门1教程开始学习Xpath的教程适合对八爪鱼已经有一些基础的用户来学习。

示例地址/tutorial?type=0&page=0&tag=%E8%BF%9B%E9%98%B6&version=otherXpath:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。

Html:超文本标记语言,是用来描述网页的一种语言。

主要用于控制数据的显示和外观。

HTML文档也被称为网页。

Xpath专用于xml中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对Html的Xpath引擎,使得直接用Xpath就能精准的查找定位网页里面的数据。

xpath入门2-图1例如下图通过火狐的firebug、firepath查看网页源码。

查看方法参考“xpath入门1”教程xpath入门2-图2完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。

通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

Html标签作为开始和结束的标记由尖括号包围的关键词,比如 <html>标签对中,第一个标签是开始标签,第二个标签是结束标签元素HTML的网页内容是由元素组成的,从开始标签到结束标签的所有代码。

元素的开始和结束都使用标签作为开始和结束的标记节点所有事物都是节点整个文档是一个文档节点每个 HTML 元素是元素节点HTML元素内的文本是文本节点每个 HTML 属性是属性节点注释是注释节点Html常见标签<a></a> 定义超链接,用于从一张页面链接到另一张页面<h1></h1> 文本标题标签,最大的标签。

【八爪鱼攻略】循环下翻下拉框的采集方法

【八爪鱼攻略】循环下翻下拉框的采集方法

【八爪鱼攻略】循环下翻下拉框的采集方法定位:循环点击下拉框,并选择下一个元素的步骤。

适用情况:网页内存在可以下拉并选择对应元素的下拉框,采集的数据需要进行下拉框内元素的循环选择。

示例网址:/步骤一:输入网址,保存网址,点击下拉框,选择循环切换下拉列表选项循环下翻下拉框-图1:点击下拉框,选择循环切换下拉列表选项步骤二:点击提取的元素,点击采集该元素的文本循环下翻下拉框-图2:采集元素文本步骤三:手动运行规则的每个步骤,检测是否正确。

完成后,点击保存并启动循环下翻下拉框-图3:启动采集示例中,下拉框共有8个选项(图4),采集完成后可以看到共采集8条数据,证明循环下拉完成了所有循环下翻下拉操作。

循环下翻下拉框-图4:8个选项假如,我们希望只循环下翻所有元素中的几条,那该如何操作呢?下面演示如何循环下翻所有元素的一部分。

操作如下:步骤一:选中循环步骤,打开高级选项,我们看到,循环方式为“不固定元素列表”。

将不固定元素列表中的这条Xpath ,复制下来循环下翻下拉框-图5:查看循环方式步骤二:将循环方式更改为“固定元素列表”,将上个步骤中复制的Xpath,粘贴到下方内容框中,并为OPTION加上[2]/[3]/[4](指定循环第2、3、4个元素),然后点击确定循环下翻下拉框-图6:修改循环方式步骤三:我们可以看到,循环列表变为指定的三项(即第2到第4个元素)。

启动采集后,条数据,证明完成了下翻所有元素的一部分采集到3循环下翻下拉框-图8:采集指定项数据说明:以上示例中,循环下翻所有元素的一部分,基本步骤与循环所有元素步骤一致,区别在于高级选项的一些设置。

如果希望只循环滚动下拉框中第2到第4个内容,对于还没有学会Xpath的同学,可以复制不固定元素列表中的完整XPath,点击固定元素列表,再点击下方内容框,粘贴之前复制的Xpath进去,然后在后面加上需要的内容顺序(第二条便填写[2])。

这里需要注意,输入[2]的时候,输入法必须处于英文状态下,Xpath只支持英文标点符号的使用。

最全的八爪鱼循环提取网页数据方法

最全的八爪鱼循环提取网页数据方法

最全的八爪鱼循环提取网页数据方法在八爪鱼中,创建循环列表有两种方式,适用于列表信息采集、列表及详情页采集,是由八爪鱼自动创建的。

当手动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。

循环的高级选项中,有5大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。

一、URL循环适用情况:在多个同类型的网页中,网页结构和要采集的字段相同。

示例网址:https:///subject/26387939/https:///subject/6311303/https:///subject/1578714/https:///subject/26718838/https:///subject/25937854/https:///subject/26743573/ 操作演示:具体请看此教程:/tutorialdetail-1/urlxh_7.html二、文本循环适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息。

实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。

示例网址:https:///操作演示:具体请看此教程:/tutorialdetail-1/wbxh_7.html注意事项:有的网页,点击搜索按钮后,页面会发生变化,只能采集到第一个关键词的数据,则打开网页步骤需放在文本循环内。

例:https:///如图,如果将打开网页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。

经过调整,将打开网页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。

具体情况此教程::/tutorialdetail-1/urlxh_7.html三、单个元素循环适用情况:需循环点击页面内的某个按钮。

例如:循环点击下一页按钮进行翻页。

实现方式:通过单个元素循环方式,达到循环点击下一页按钮进行翻页目的。

淘客店铺免费采集软件使用教程

淘客店铺免费采集软件使用教程

淘客店铺免费采集软件使用教程淘宝上有海量的数据,包括商家、商品、用户,我们如何能获取的这些数据,并让它们发挥真正的价值,帮助我们的工作,这时就需要一款好用的工具来实现。

八爪鱼是一款有上百万用户在使用的数据采集器,简单、方便、实用。

本文将介绍使用八爪鱼采集软件采集阿里妈妈淘宝联盟(以衣服为例)的方法采集网站:本文仅以阿里妈妈淘宝联盟衣服搜索结果页面举例说明,大家如果有其他采集淘宝联盟商品的需求,可以更换搜索关键词进行采集。

采集内容为:商品图片地址,商品标题,店铺名,销量,商品价格,佣金,比率,商品链接使用功能点:●创建循环翻页●商品URL采集提取●创建URL循环采集任务●修改Xpath步骤1:创建淘客店铺采集任务1)进入主界面,选择“自定义采集”淘客店铺免费采集软件步骤12)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”淘客店铺免费采集软件步骤23)保存网址后,鼠标点击输入框,在右侧操作提示框中,选择“输入文字”淘客店铺免费采集软件步骤34)然后输入采集的商品,点击确定淘客店铺免费采集软件步骤45)网络加载速度比较慢,所以需要设置执行前等待,为防止输入框没加载完毕操作失效还需要设置出现元素。

淘客店铺免费采集软件步骤5然后点击搜索,并选择“点击该按钮”淘客店铺免费采集软件步骤6由于网页涉及Ajax技术。

所以需要选中点击元素,打开“高级选项”,勾选“Ajax 加载数据”,设置时间为“5秒”。

因为页面打开后需要向下滑动才可以出现更多内容,所以还需要设置页面滚动,滚动次数选择30次,每次间隔2秒,选择向下滚动一屏完成后,点击“确定”。

淘客店铺免费采集软件步骤7步骤2:创建翻页循环1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“循环点击单个链接”淘客店铺免费采集软件步骤82)同上,此步骤也需要设置高级选项,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“3秒”。

因为页面打开后需要向下滑动才可以出现更多内容,所以还需要设置页面滚动,滚动次数选择30次,每次间隔1秒,选择向下滚动一屏完成后,点击“确定”淘客店铺免费采集软件步骤9步骤3:采集阿里妈妈淘宝联盟商品信息1)移动鼠标,选中第一个商品图片,标题,店铺名,系统会自动识别出相似的元素,在提示框中选择“选中全部”,随后点击采集图片地址或者采集以下元素文本。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

xpath入门教程以及定位元素实例
本文用来讲解xpath的入门基础,本教材是xpath入门2,建议大家从入门1教程开始学习
Xpath的教程适合对八爪鱼已经有一些基础的用户来学习。

示例地址
/tutorial?type=0&page=0&tag=%E8%BF%9B%E9%98%B6&version=other Xpath:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。

Html:超文本标记语言,是用来描述网页的一种语言。

主要用于控制数据的显示和外观。

HTML文档也被称为网页。

Xpath专用于xml中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对Html的
就能精准的查找定位网页里面的数据。

Xpath引擎,使得直接用Xpath
例如下图通过火狐的firebug 、firepath 查看网页源码。

查看方法参考“xpath 入门1”教程
xpath 入门2-图2
完整的HTML 文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>
,结束标签为</>,在这两个标签之间添加内容。

通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

Html 标签
作为开始和结束的标记由尖括号包围的关键词,比如<html>标签对中,第一个标签是开始标签,第二个标签是结束标签
元素
HTML的网页内容是由元素组成的,从开始标签到结束标签的所有代码。

元素的开始和结束都使用标签作为开始和结束的标记
节点
所有事物都是节点
整个文档是一个文档节点
每个HTML 元素是元素节点
HTML元素内的文本是文本节点
每个HTML 属性是属性节点
注释是注释节点
Html常见标签
<a></a> 定义超链接,用于从一张页面链接到另一张页面
<h1></h1> 文本标题标签,最大的标签。

从1到6,有6层选择
<p></p> 段落标记标签
<div></div> 可定义文档中的区域或节、可以把文档分割为不同的部分,是一个块级元素
<ul></ul> 创建一个列表
<li></li> 创建列表内容项
<input> 用于搜集用户信息可以是文本字段、复选框、按钮等等
<img></img> 向网页中嵌入一幅图像,从网页中链接图像
<table></table> 创建一个表格
<tr></tr> 表格中的每一行
<th></th> 设置表格头,通常是黑体居中文字
<option></option> 设置每个表单项的内容,选项
可以通过这些常见的标签找到数据的位置。

例如//a就代表能匹配到这个网页中所有可以点击的链接
xpath入门2-图3
Html常见属性
属性是用来修饰标签的,放在开始标签里面
class
规定元素的类名,大多数时候用于指定样式表中的类
id
唯一标识一个元素的属性,在html里面必须是唯一的
href
指定超链接目标的url
src
图像文件的url
例如//span[@class='itemWithIcon calendar']通过class 这个属性就匹配到了当前页面所有的日期。

xpath 入门2-
图4
Xpath 常见写法
text()
文本定位位置
例如//a[text()='下一页 » ']
通过源码中文本“下一页 »”就匹配到了,这个text ()是需要精确匹配源码中的文本的
xpath 入门2-图5
contains()
用来判断字符串的一部分
contains(text(),'')
contains(@class ,'')
这个
contains 是用来模糊匹配的,可以看到源码中显示的是“下一页 »”,用contains 只需要“下一页”3个字就可以了
xpath入门2-图6
positon()
表示节点的序号
last()
//div[last()]
xpath入门2-图7
首先看到上图中xpath
html/body/div[1]/div[3]/div/div/div[2]/div[1]/div匹配到了网页中的所有教程,但是我们如果只需要里面几项的时候就可以使用position()
如下图:
通过html/body/div[1]/div[3]/div/div/div[2]/div[1]/div[position()=5],里面的[position()=5]就可以指定是某个具体的教程了。

xpath入门2-图8:[position()=5],指定某个具体教程following-sibling
当前元素的兄弟元素
这个可以参看数字翻页的例子哈
and\or\not
and 并且与关系
or 并且或关系
not 不是
例如下面的html/body/div[1]/div[3]/div/div/div[2]/div[1]/div[2]/div/a[@style and @href],其中的[@style and @href]就代表找到同时具有这两个style和href属性的a标签
xpath入门2-图9:[@style and @href],具有style和href属性的a标签
相关阅读:
美团商家信息采集
豆瓣电影短评采集
房天下信息采集
八爪鱼——70万用户选择的网页数据采集器。

相关文档
最新文档