python爬取的页面没有想要的数据,数据被隐藏

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Python爬虫进阶(一)

Requests请求成功,获取的页面没有想要的数据

1、准备用python分析一下某网站漏洞及其补丁的对应关系,无奈遇到数据隐藏的情况。

在浏览器中能够看到CVE编号,如图所示:

但是右键查看页面源代码时,无法搜索到页面信息。

显然,数据不在当前页面,利用requests.get(url,headers= headers)是无法获取到数据的。

2、遇到这种情况,首先怀疑数据被隐藏到其他地方,很有可能数据通过json格式进行传输。

首先按F12,到开发者界面,按图中序号进行逐次操作,如图所示:

(1)点击网络选项,(2)选中XHR,(3)刷新网页,(4)依次点击弹出的链接,(5)查看响应数据,找到页面分析的内容。

3、通过第2步,找到数据被隐藏到一个json文件中,点击消息头,明显看到请求的方法为

GET()方法以及请求的URL和headers,再利用requests.get(url,headers= headers)就可以获取到数据了。

4、其实利用json数据,少去了网页解析步骤,对数据的整理相对简单了。随便说下,利用

json.loads(respon.text)可以将json数据格式进行转换。

相关文档
最新文档