python3.3 抓取网页数据

#coding: utf-8
import urllib.request
import re
""" ***************使用正则表达式提取网页中的标题、链接、图片***************"""

Target='https://www.360docs.net/doc/8f8331272.html,/index.php?tn=98012088_3_dg'
url=urllib.request.urlopen(Target)#urlopen返回 一个类文件对象
page=url.read()#读取文件内容至pager
url.close()

fp=open("grab.txt","wb")
fp.write(page)
fp.close()#将抓取的网页内容存至文件grab.txt文件中,以备不时之需

page=page.decode('utf-8')#findall要求的对象格式为str
s=""

s=s+"标题:\n"
page_title=https://www.360docs.net/doc/8f8331272.html,pile('(.+?)')
s=s+" "+page_title.findall(page)[0]+"\n"#提取标题

s=s+"图片:\n"
page_image=https://www.360docs.net/doc/8f8331272.html,pile('for data in page_image.findall(page):
s=s+" "+data+"\n"#提取图片

s=s+"链接:\n"
page_link=https://www.360docs.net/doc/8f8331272.html,pile('href=\"(.+?)\"')
for data in page_link.findall(page):
if "http" in data:
s=s+" "+data+"\n"#提取链接

print(s)
print("请按任意键结束",end='...')
Input=input()

相关文档
最新文档