百度地图商家采集

合集下载

地图采集员岗位职责

地图采集员岗位职责

地图采集员岗位职责1. 岗位简介地图采集员是从事地图数据采集工作的专业人员。

主要负责收集、整理和更新各类地图数据,并进行数据标注、质量检查和数据核实工作。

地图采集员需要具备一定的地理知识和地图制图技术,并且熟练运用相关地图制图软件和设备。

2. 岗位职责2.1 地图数据采集- 根据任务要求,准确收集和记录各类地图数据,包括地理位置、道路信息、建筑物、水系、交通设施等内容。

- 利用GPS、遥感技术等设备和软件工具,对采集区域进行测量和拍摄,获取准确的地图数据。

- 采用定量调查和现场调查相结合的方式,对地图数据进行采集和核实,确保数据的准确性和完整性。

2.2 数据整理和更新- 对采集到的地图数据进行整理和分类,建立合理的数据结构和数据库,便于数据的管理和更新。

- 根据地图制作规范,对数据进行加工和修正,确保地图的精度和质量。

- 定期对地图数据进行更新和维护,跟踪相关信息变化,及时进行数据更新。

2.3 数据标注和质量检查- 使用地图制图工具,对采集的地图数据进行标注和注释,包括文字标注、图符标注等。

- 对标注过程中出现的错误和不符合要求的地图数据进行纠正和修正,确保地图数据的准确性和一致性。

- 进行地图数据的质量检查,对采集的数据进行核实和验证,及时发现和纠正问题。

2.4 地图制图和信息发布- 利用地图制图工具和相关软件,进行地图的制作和设计,包括地图样式、布局、色彩等方面的处理。

- 将制作完成的地图保存为合适的格式,以便发布和分发给相关部门和用户。

- 根据不同需求,生成不同尺度和类型的地图,并进行相应的更新和修改。

2.5 地理信息服务支持- 根据用户需求,提供地理信息相关咨询和支持,解答用户提出的问题并提出合理建议。

- 收集和整理用户的反馈意见和建议,提供给相关部门进行地图数据优化和修正。

2.6 专业知识更新和学习- 不断学习和更新地理知识和地图制图技术,了解地图数据采集和制作的最新方法和技术。

- 参加相关培训和学术交流活动,提升自身的专业素质和能力。

利用百度地图API实现百度地图坐标拾取

利用百度地图API实现百度地图坐标拾取

利⽤百度地图API实现百度地图坐标拾取<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="initial-scale=1.0, user-scalable=no" /><style type="text/css">body, html {width: 100%;height: 100%;margin: 0;font-family: "微软雅⿊";}#allmap {height: 500px;width: 100%;padding-top: 10px;}#r-result {width: 100%;font-size: 14px;}.gray-bg {background-color: #ffffff;}</style><script type="text/javascript" src="///api?v=2.0&ak=你的key"></script><title>城市名定位</title></head><body class="gray-bg"><div class=""><div class="row" style="padding:10px;"><div class="col-sm-12">地址: <input id="txtaddress" type="text" style="width:300px; margin-right:10px;" /><input type="button" value="查询" onclick="theLocation()" />经度:<input type="text" id="jd" style="width:100px; margin-right:10px;" />纬度:<input type="text" id="wd" style="width:100px; margin-right:10px;"/><input type="button" value="确认" onclick="Determine()" /></div></div><div class="row" style="padding:10px;"><div class="col-sm-12" id="allmap"></div></div></div></body></html><script type="text/javascript">// 百度地图API功能var map = new BMap.Map("allmap");var point = new BMap.Point(116.331398, 39.897445);map.centerAndZoom('⼴州', 11);//点击返回var geoc = new BMap.Geocoder();map.addEventListener("click", function (e) {var pt = e.point;var input = document.getElementById('wd');var input2 = document.getElementById('jd');var address = document.getElementById("txtaddress");//返回坐标input.value = pt.lng;input2.value = t;//点击坐标返回地址geoc.getLocation(pt, function (rs) {var addComp = rs.addressComponents;var addresstext = "";if (addComp.province == addComp.city) {addresstext = (addComp.province + addComp.district + addComp.street + addComp.streetNumber);}else {addresstext = (addComp.province + addComp.city + addComp.district +addComp.street + addComp.streetNumber); }address.value = addresstext;});});map.addControl(new BMap.NavigationControl());var local = new BMap.LocalSearch(map, {renderOptions: { map: map }});function theLocation() {var address = document.getElementById("txtaddress").value;if (address != "") {local.search(address);}}//确定选择function Determine() {var wd = document.getElementById('wd');var jd = document.getElementById('jd');var address = document.getElementById("txtaddress");if (!wd.value || !jd.value || !address.value) {alert('请确定地址信息'); return false;}//alert(address.value + "*" + wd.value + "*" + jd.value);window.opener.document.getElementById("txtAddress").value = address.value;window.opener.document.getElementById("Hidlatitude").value = wd.value;window.opener.document.getElementById("Hidlongitude").value = jd.value;window.opener = null;window.open('', '_self');window.close();}</script>。

地图采集员

地图采集员

地图采集员一、简介地图采集员是负责采集地理信息的专业人员,主要通过实地勘测、传感器等手段获取地理数据,然后整理、处理、更新地图信息,为社会提供准确、完整的地理空间数据。

地图采集员的工作范围涵盖了城市规划、交通、环境保护、农业等领域,他们的工作对于人们的出行、资源管理、环境保护等方面起着重要的作用。

二、工作职责地图采集员的工作职责包括但不限于以下几个方面:1. 地理数据采集地图采集员通过实地勘测、传感器、卫星遥感等手段采集地理信息数据,如地面高程、土地利用、道路网络、建筑物等。

他们需要使用专业的测量仪器和地理信息系统来确保数据的准确性和完整性。

2. 数据整理与处理采集到的地理数据需要经过整理和处理,使其能够被地图系统读取和使用。

地图采集员需要运用地理信息系统软件对数据进行编辑、清洗、拓扑修正等操作,以确保地图数据的质量和一致性。

3. 地图更新与维护地图采集员需要定期对现有地图进行更新和维护,以反映最新的地理信息变化。

他们会收集新的数据并与现有地图进行对比,及时更新地图内容以保持其准确性。

4. 地图制作与发布地图采集员还需要根据需求制作各种类型的地图,如道路地图、导航地图、城市规划地图等。

制作地图的过程中,他们会根据不同的用户群体和使用场景进行设计,并选择合适的地图样式、符号和标注。

三、技能要求成为一名合格的地图采集员需要具备以下技能要求:1. 地理学知识地图采集员需要具备扎实的地理学基础知识,包括地理坐标系统、地球表面特征、地理数据的表示与处理等方面的知识。

了解地理学的基本原理对于正确采集和处理地理数据非常重要。

2. 测量与勘测技术地图采集员需要掌握各种测绘仪器的使用方法,并具备实地勘测的技能。

熟悉测量原理和操作流程,能够通过测量仪器获取准确的地理数据。

3. 地理信息系统地图采集员需要熟练使用地理信息系统(GIS)软件,如ArcGIS、QGIS等,以进行数据的编辑、分析和制图工作。

熟悉GIS软件的操作界面和功能,能够熟练应用地理信息系统进行地图制作和数据处理。

八爪鱼软件地图采集图文攻略

八爪鱼软件地图采集图文攻略

使用八爪鱼采集软件采集百度地图搜索结果图文攻略
八爪鱼采集软件的规则市场内更新了百度地图搜索结果采集,本文主要介绍如何采集的详细图文步骤。

首先还是先去八爪鱼采集器内的规则市场搜索下,百度地图采集的规则,如下图:
搜索到之后,将百度地图的规则下载下来,导入到新任务中。

有的小伙伴们会提到下载的时候需要扣除积分,规则太多则完全不够用啊,其实,积分的获取非常简单,八爪鱼采集器提供了各种免费赚积分的途径,快速查看如何免费赚积分。

下载下来的规则,里面有一个关键词示例,就是“教育”,大家可以自行修改成自己想要查询的关键词,修改办法十分简单,点击流程框内的“输入文字”,在右侧的框内将教育修改成为其他的关键词,点击保存,注意,本处只可放入一个关键词哦。

由于这个地图页面有防采集措施,所以大家就一个关键词一个关键词的采集比较好,建议使用云采集会更有效的突破防采集哦!如果要多个关键词一起修改,则可按下图设置关键词循环。

最后,我们就来一起看下采集的成果吧!采集完毕后可以根据自己的需要将数据保存为EXCEL、TXT、HTML、数据库等多种格式哦。

地图POI及AOI信息爬取方案

地图POI及AOI信息爬取方案

功能简介本方案用于获取百度地图上的POI(位置兴趣点)以及AOI(区域兴趣点)信息,包括经度维度(百度坐标系)、地点(区域)名称、地点特征以及区域范围等信息,将数据存入数据库并保持持续更新。

能力说明多种爬取手段结合采用“百度地图URL爬取”和“百度地图API调用”两种方式结合,尽可能的覆盖全量数据,将数据丢失降至最低。

当采取百度地图URL爬取的时候,由于百度地图服务器端的限制,一个区县范围内单个关键字最多返回750条记录,大于750部分将被丢弃,无法获取。

这个时候就需要将区县划分成一定大小的地理网格,只要网格选取的足够合适,那么单个网格范围内返回的数据量将不会超过最大值,将数据损失尽量降低。

网格划分规则:D(记录数差值)= 实际返回总记录数– 750(记录返回上限)如果1=<D<=400,则划分为5×5个相同大小的正方形如果401=<D<=1000,则划分为6×6个相同大小的正方形如果1001=<D<=2000,则划分为8×8个相同大小的正方形如果2001=<D<=5000,则划分为10×10个相同大小的正方形如果5001=<D,则划分为15×15个相同大小的正方形支持断点续传每次任务执行之前,会生成全局执行计划,并按照执行计划逐步执行,当执行过程中由于程序原因或者外界原因程序退出中断后,如果启动时间与上次执行时间之差不超过24小时,再次启动程序将按照原执行计划顺序执行;如果超过24小时,将重新生成执行计划并执行。

多进程+多线程为了保证数据更新的效率,采取多进程结合多线程的方式执行。

首先按地市生成11个定时任务,每个任务中按区县再分成多个线程并行执行。

目前平均每天全量更新数据的时间大约在3小时左右。

数据持续更新每天定时更新全量数据,保证数据与百度地图的一致性,实现新增数据的录入以及旧数据的剔除。

百度地图API爬取不同类型POI的详细数据

百度地图API爬取不同类型POI的详细数据

百度地图API爬取不同类型POI的详细数据⼀、相关概念查询某个范围内的所有POI参数介绍:page_size:单次查询返回的POI的数量,最⼤值为20page_num:查找的POI数量超过20时,会分页显⽰;⽐如60个POI就会分3页;此时,page_num=1/2/3会先显⽰全部的数据;当page_num=4时,第4页的结果集⼤⼩为0;scope:1为默认值;2会显⽰详细数据region:检索的⾏政区域URL链接:查询结果⽰例:"status":0,"message":"ok","total":2,"result_type":"poi_type","results":[{"name":"红螺寺","location":{"lat":40.390454,"lng":116.632411},"address":"北京市怀柔区红螺东路2号","province":"北京市","city":"北京市","area":"怀柔区","street_id":"","telephone":"(010)60681175,(010)60681639","detail":1,"uid":"605884e7c61e3573871541a3","detail_info":{"tag":"旅游景点;⽂物古迹","navi_location":{"lng":116.63176774842,"lat":40.37846005246},"type":"scope","detail_url":"/place/detail?uid=605884e7c61e3573871541a3&output=html&source=placeapi_v2","overall_rating":"4.3","comment_num":"200","children":[]}},{"name":"卧佛寺","location":{"lat":40.013776,"lng":116.213915},"address":"北京市海淀区卧佛寺路北京植物园内","province":"北京市","city":"北京市","area":"海淀区","street_id":"934b3dbf0a8d977b8b2fb5c0","detail":1,"uid":"934b3dbf0a8d977b8b2fb5c0","detail_info":{"tag":"旅游景点;⽂物古迹","navi_location":{"lng":116.21389548337,"lat":40.011540367963},"type":"scope","detail_url":"/place/detail?uid=934b3dbf0a8d977b8b2fb5c0&output=html&source=placeapi_v2","overall_rating":"4.7","image_num":"38","comment_num":"74","children":[]}}]查询某个POI的详细数据参数介绍:uid:某个POI对应的唯⼀的标识(通过范围查询获取到的)URL链接:查询结果⽰例:{"status":0,"message":"ok","result":{"uid":"605884e7c61e3573871541a3","street_id":"","name":"红螺寺","location":{"lng":116.63241097199,"lat":40.390454021402},"address":"北京市怀柔区红螺东路2号","province":"北京市","city":"北京市","area":"怀柔区","telephone":"(010)60681175,(010)60681639","detail_info":{"tag":"旅游景点;⽂物古迹","navi_location":{"lng":116.63176778525,"lat":40.378460018453},"detail_url":"/place/detail?uid=605884e7c61e3573871541a3&output=html&source=placeapi_v2","type":"scope","price":"¥54元","overall_rating":"4.3","image_num":"133","comment_num":"200","scope_type":"古迹","scope_grade":"AAAA","content_tag":"适合亲⼦;登⼭;礼佛祈福;赏红叶;适合拍照;⽇出;适合跑步;银杏;情侣约会;⾹⽕旺;免费项⽬;收费合理;空⽓清新;绿植繁茂;位置优越;景⾊优美;⼈⽓旺;景区⼤;⽓势宏⼤;环境不错;玩的开⼼;休闲好去处;值得游玩;建筑风格独特 },"detail":1}}⼆、相关链接百度地图API的POI分类申请akPOI检索相关介绍三、功能模块范围查询获取POI数据#将查询到的poi数据存⼊数据库def insertPOIData(name_list,ak,cursor):#总共查询到了多少对象total = 0#不重复的向数据库中写⼊的数据条数inserttotal = 0for i in name_list:#ecxel表格数据判空if i == '':break#j的范围从0开始;上限不⼀样for j in range(0, 10):time.sleep(3)url = getUrlByName(i, ak, j)print(url)html = requests.get(url)# print(type(html)) response类型data = html.json()# print(type(data)) dict类型print(data)#status状态码为0表⽰获取正常if data['status'] == 0:#判断获取的数量,为0表⽰查询不到该类型的对象if data['total'] == 0:breaktotal = total + data['total']if 'results' in data:for item in data['results']: # ⼀次返回的results中有20条数据# print(item)name = item['name']if isExist(cursor, item['uid']):print(f'{name}已经存在')#跳出循环,判断results中的下⼀个itemcontinueinsert = "insert into poidatas(tag,uid,lat,lng,name,address,province,city,area) values ('%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (i, item['uid'], str(item['location']['lat']), str(item['location']['lng']), item['name'],item['address'], item['province'], item['city'], item['area']) # 字符串类型的数据插⼊要加单引号if cursor.execute(insert):inserttotal = inserttotal + 1if 'overall_rating' in item['detail_info']:update = "update poidatas set overall_rating ='%s' where uid = '%s'" % (item['detail_info']['overall_rating'], item['uid'])cursor.execute(update)if 'distance' in item['detail_info']:update = "update poidatas set distance ='%s' where uid = '%s'" % (item['detail_info']['distance'], item['uid'])cursor.execute(update)if 'comment_num' in item['detail_info']:update = "update poidatas set comment_num ='%s' where uid = '%s'" % (item['detail_info']['comment_num'], item['uid'])cursor.execute(update)if 'price' in item['detail_info']:update = "update poidatas set price ='%s' where uid = '%s'" % (item['detail_info']['price'], item['uid'])cursor.execute(update)if 'result' in data: #还需要对只有⼀个返回结果的情况进⾏判断#区别就是这⾥不能⽤for循环item = data['result']# print(item)db = pymysql.connect(host="localhost", user="root", password="root", database="poi")cursor = db.cursor()name = item['name']if isExist(cursor, item['uid']):print(f'{name}已经存在')exit()insert = "insert into poidatas(tag,uid,lat,lng,name,address,province,city,area) values ('%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (i, item['uid'], str(item['location']['lat']), str(item['location']['lng']), item['name'],item['address'], item['province'], item['city'], item['area']) # 字符串类型的数据插⼊要加单引号if cursor.execute(insert):inserttotal = inserttotal + 1if 'overall_rating' in item['detail_info']:update = "update poidatas set overall_rating ='%s' where uid = '%s'" % (item['detail_info']['overall_rating'], item['uid'])cursor.execute(update)if 'distance' in item['detail_info']:update = "update poidatas set distance ='%s' where uid = '%s'" % (item['detail_info']['distance'], item['uid'])cursor.execute(update)if 'comment_num' in item['detail_info']:update = "update poidatas set comment_num ='%s' where uid = '%s'" % (item['detail_info']['comment_num'], item['uid'])cursor.execute(update)if 'price' in item['detail_info']:update = "update poidatas set price ='%s' where uid = '%s'" % (item['detail_info']['price'], item['uid'])cursor.execute(update)print('总共查找到的POI数量为: ')print(total)print('插⼊数据库的POI数量为: ')print(inserttotal)根据uid查询POI详细数据#通过uid查询更详细的数据并存⼊数据库def updateDetailInfo(ak,cursor):selectsql = 'SELECT uid FROM poidatas'cursor.execute(selectsql)result = cursor.fetchall()for row in result:uid = row[0]url2 = '/place/v2/detail?uid=%s&output=json&scope=2&ak=%s' %(uid,ak)print(url2)time.sleep(3)html=requests.get(url2)data=html.json()print(data)if data['status']==0:if 'result' in data:#print(data['result'])#result集合⼤⼩为1,这⾥不能使⽤for循环item = data['result']if 'shop_hours' in item['detail_info']:update = "update poidatas set shop_hours ='%s' where uid = '%s'" % (item['detail_info']['shop_hours'],item['uid'])print(update)cursor.execute(update)if 'detail_url' in item['detail_info']:update = "update poidatas set detail_url ='%s' where uid = '%s'" % (item['detail_info']['detail_url'],item['uid'])print(update)cursor.execute(update)if 'image_num' in item['detail_info']:update = "update poidatas set image_num ='%s' where uid = '%s'" % (item['detail_info']['image_num'],item['uid'])print(update)cursor.execute(update)if 'service_rating' in item['detail_info']:update = "update poidatas set service_rating ='%s' where uid = '%s'" % (item['detail_info']['service_rating'],item['uid'])print(update)cursor.execute(update)if 'environment_rating' in item['detail_info']:update = "update poidatas set environment_rating ='%s' where uid = '%s'" % (item['detail_info']['environment_rating'],item['uid'])print(update)cursor.execute(update)判断POI是否已经存⼊数据库#判断是否已经存⼊数据库def isExist(cursor,uid):sql = "select * from poidatas where uid = '%s'" % uid#print(cursor.execute(sql)) sql语句执⾏成功,返回的是1if cursor.execute(sql):return Trueelse:return False从excel表中读取POI类别def readExcel(path):data = xlrd.open_workbook(path)sheets = data.sheets()data_list=[]for i in range(len(sheets)):table=data.sheets()[i]table_rows=table.nrowstable_cols=table.ncolsfor j in range(table_rows):data_list.append( table.cell(j,0).value)return data_list拼接访问URLdef getUrlByName(name,ak,j):#矩形搜索,POI数量较少url = '/place/v2/search/?query=%s&page_size=20&page_num=%s&output=json&bounds=40.817,111.697,40.821,111.709&scope=2&ak=%s' %(name,j,ak) # ⾏政区域搜索,POI数量较多#url = '/place/v2/search/?query=%s&output=json&region=呼和浩特&scope=2&ak=%s' %(name,ak)return urlMain函数def Main():ak = "~~~~~"name_list=readExcel(r'D:\poi类别.xls')db = pymysql.connect(host="localhost", user="root", password="root", database="poi")cursor = db.cursor()insertPOIData(name_list,ak,cursor)updateDetailInfo(ak, cursor)mit()cursor.close()。

世上最酷的工作,地图信息采集员

世上最酷的工作,地图信息采集员

世上最酷的工作,地图信息采集员很多人都厌倦朝九晚五、周而复始的工作。

但世界上有一种工作,要么是开着车一年走10万公里路,要么是背着背包逛上百个景点,要么每天走马观花逛商店……听起来是不是很酷?这便是“全世界最酷的工作”—地图信息采集员,拿着高薪四处旅行。

2017年,我有幸做了一个星期的百度地图采集员。

进山寻找消失的部落,潜海测绘海底风光,进入原始森林寻访灵活的长臂猿和胆小的坡鹿。

野外实景地图采集工作就像自驾游地图,已经成为现代生活中的水电煤。

我们每天生活中都要用到地图,但很少有人知道地图数据是怎么来的。

很多人以为地图数据是用卫星采集的,其实,我们用到的地图都是人力一步步丈量出来的。

担任百度地图采集员的第一天,我们要探寻的是海南一处名为棋子湾的未开发海滩。

通常每个路线采集员配备一辆SUV,车顶上装着相机,副驾驶上安着电脑,后备箱中装满各种仪器、食物、睡袋和帐篷。

因为测量会行驶到无人地带,每一辆采集车对采集员来说,就是房车。

一年行10万公里路,一个人工作,独自看风景。

采集车顶上的三台单反鱼眼相机,每行驶7~8米,会拍一张照片。

三张照片拍完后,会自动拼结起来,形成一张全景照片。

要用到的装备是地图全景采集背包,它适合于车辆不能进入的空间数据采集。

头顶上是三台单反相机,背包中是数据处理设备。

整个背包重13公斤,需要人员辅助才能背上,数据采集员每天背着它少则2小时,多则8小时。

地图数据采集员,是最酷的工作,也是最累的活儿。

走到海边时,捕捉到有人玩得兴致勃勃飞得很高的画面,相机立马记录在案。

曾经,谷歌在做全景地图时,在情景地图上很诚实地反映拍到的风景,结果,就连情侣在外亲热的照片也被全球直播,引起轩然大波。

现在,所有做全景地图的机构在上线全景地图时,都会把拍到的个人信息抹去,或者为脸部打马赛克。

地图采集员,是支撑移动互联社会的游牧民族,地理信息就是他们的牧场。

每年,在高山大海和人山人海之间切换。

每一座城市待一个月就转场。

游走四海八荒:百度地图首位女采集师的酷生活

游走四海八荒:百度地图首位女采集师的酷生活
可 ,对 方 备 等 。这 种地 图 采集 电动 车 的信 息 收 集 车 有点 桐似 ,但 因其 更 灵敏便 利 ,于澄
“首 席 ”和 “首 位 ” 虽 只 有 一 字 之 差 ,但 和同事们进胡 同冷巷等狭小的地方 作时 ,就
澄 的操 控 下 ,香 格 里 的 达 措 、独 宗
城 、松 赞 林 寺 、纳 帕 海 等地 ,都 下 J 这 位
豸 姜攀 “神龙见首不见尾”的收集帅的脚印~ 自然 界 中 的 动物 可 以 两 就 经 』, 起 ,
但地 图的采集师们 ,是真正的冈栖达人:于澄
时 而 操 控 着 尢 人 机 越 … 川 河 流 ,
最 “高大 上 ” 的尢 人机 采 集和 同¥ 们 在高空 收 集 地 图信 息 的 r}『¨J!尤
其在 诸 如 云 香格 里 托这 样 高 海拔 儿多… 川河
的_ 作H\』,偶尔从微信朋友圈看到的 于 澄也 信心 满满 。
一 条 转 发 息 ,令她 倍 感 振 奋 :“背 起 行 囊 , 由于地图是借助天津卫视 的求职节 目
远 离 人群 ,从 香 格 里 拉 到 珠 峰 、雪 山 、大 漠 {:iF-f ̄莫属》面向社会招募首席 采集师 ,笔试
地 足=960 7了平 方 公 里 的 风景 ,还 有 1O0万 人 民 这份 工作 的向住以及 9年驾龄 的优势 ,不畏孤
151
欢8 迎。 赐稿c1 o''rn}{ ■__■._=-i■■■_■_。'
独和艰辛的决心。看似柔弱的于澄,还 当场脱 科技背包。
掉 高跟 鞋 ,背起 了 20公 斤重 的地 图采集设 备
。 熹 l,1 ,3r9船欢57。迎62@赐qq.稿COm
“背起行 囊 ,远 离人群 ,从 香格里拉 到珠峰 、雪山、大漠·…··四海八荒任你行 。办公场地 是 960万 平方公里 的风 景 ,还 有 100万 人 民币的年薪 !,’2017年3月 ,百 度地图 官方微 博发布 了这 条诱人的 “首席 采集师 ”招募信息 ,一 时间应征者无 数。 海作 伴、酷到没朋友的高薪 生活 。你会发 现 ,在 自己常用 的手机导 航功能背后 ,还隐藏着诸多不为人知 的故事——
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文介绍使用八爪鱼采集百度地图商家(以上海-火锅商家为例)的方法
示例规则下载:
使用功能点:
●列表及详细信息采集
/tutorial/fylbxq7.aspx?t=1
●文本循环教程
/tutorial/wbxh_7.aspx?t=1
●AJAX点击和翻页
/tutorial/ajaxdjfy_7.aspx?t=1
相关采集教程:
大众点评评价采集
百姓网商家采集
1)进入主界面,选择“自定义采集”
(百度地图商家采集图1)
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
(百度地图商家采集图2)
步骤2:输入采集信息
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。

点击页面中的城市选择框,然后在操作提示框中,选择“更多操作”
(百度地图商家采集图3)2)选择“点击该元素”,进入城市选择页面
(百度地图商家采集图4)
3)选择想要采集的城市,这里以上海为例。

先选中“上海”,然后在操作提示框中,选择“点击该链接”,进入上海地图
(百度地图商家采集图5)
4)先点击地图上的输入框,然后在右侧操作提示框中,选择“输入文字”
(百度地图商家采集图6)
5)在操作提示框中,输入想要查询的文本。

这里输入“火锅”。

输入完成后,点击“确定”
6)我们可以看到,“火锅”自动填充到输入框。

先点击“搜索”按钮,然后在右侧操作提示框中,选择“点击该按钮”
(百度地图商家采集图8)
步骤3:创建翻页循环
1)我们可以看到,页面出现了火锅商家的搜索结果。

将结果页面下拉到底部,点击“下一页”按钮。

在右侧的操作提示框中,选择“循环点击下一页”,以创建一个翻页循环
(百度地图商家采集图9)
步骤4:创建列表循环
1)先选中搜索结果页面的第一条火锅商家的链接,系统会自动识别相似元素,在操作提示框中,选择“选中全部”
(百度地图商家采集图10)
2)在操作提示框中,选择“循环点击每个链接”,以创建一个列表循环
(百度地图商家采集图11)
步骤5:提取商家信息
1)创建列表循环完成后,系统会自动点击第一条火锅商家链接,进入商家详情页。

先点击要采集的字段(这里点击了商家名),然后在操作提示框中,选择“采集该元素的文本”
(百度地图商家采集图12)
2)继续点击要采集的字段,选择“采集该元素的文本”。

采集的字段会自动添加到上方的数据编辑框中。

选中相应的字段,可以进行字段的自定义命名。

自定义命名完成后,点击“保存并开始采集”
(百度地图商家采集图13)
3)经过以上操作,整个流程图建立完毕。

在保存并启动任务之前,我们还需要进行一些高级选项的设置。

先选中第1个“点击元素”步骤,然后打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
(百度地图商家采集图14)
4)第2个“点击元素”步骤、第3个“点击元素”步骤、第4个“点击元素”步骤、“点击翻页”步骤(如下图红框所示),均需要勾选“Ajax加载数据”,设置时间为“2秒”
(百度地图商家采集图15)
注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

表现特征:a、点击网页中某个选项时,大部分网站的网址不会改变;b、网页不是完全加载,只是局部进行了数据加载,有所变化。

验证方式:点击操作后,在浏览器中,网址输入栏不会出现加载中的状态或者转圈状态。

5)点击左上角的“保存并启动”,选择“启动本地采集”
(百度地图商家采集图16)
步骤6:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。

选择“合适的导出方式”,将采集好的数据导出
(百度地图商家采集图17)
2)这里我们选择excel作为导出为格式,数据导出后如下图。

相关文档
最新文档