南开20春学期《网络爬虫与信息提取》在线作业满分答案
20春学期(1709、1803、1809、1903、1909、2003)《网络爬虫与信息提取》在线作业答卷

20春学期(1709、1803、1809、1903、1909、2003)《网络爬虫与信息提取》在线作业
试卷总分:100 得分:100
一、单选题(共20 道试题,共40 分)
1.要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库()
A.uiautomator
B.ui_automator
C.pyautomator
D.automator
答案:A
2.使用UI Automatorr让屏幕向左滚动的操作是得到相应控件后使用命令()
A.scroll.left
B.scroll.horiz.left
C.scroll.horiz.forward
D.scroll.forward
答案:C
3.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet是()
A.集合
B.字典
C.列表
D.元组
答案:B
4.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。
A.集合的名字
B.集合
C.文档
D.字典
答案:A
5.以下表示请求正常处理的HTTP状态码为
A.500
B.404
C.301
D.200
答案:D
6.Redis是一个开源的使用()语言编写
A.Python
B.JAVA
C.C++
D.ANSI C。
南开20春学期(1709、1803、1809、1903、1909、2003)《网络爬虫与信息提取》在线作业参考答案2

B.第一步:[100]第二步:[50]
C.第一步:[100]第二步:[]
D.第一步:[100]第二步:[100]
答案dvi(1)
B.div(2)
C.div[1]
D.div[2]
答案:D
12.查看网站请求一般在Chrome开发者模式下的()选项卡中查看
D.text
答案:C
二、多选题(共10道试题,共20分)
21.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()
A.403
B.404
C.500
D.503
答案:AB
22.Python中()容器有推导式
A.列表
B.元组
C.字典
D.集合
答案:ACD
23.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
答案:AB
24.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
答案:CD
25.HTTP常用状态码表明表明服务器本身发生错误的有()
A.set
B.list
C.convert
D.change
答案:A
17.Python中若定义object="12345",则print(object[::-1])输出()
A.1
B.5
C.54321
D.程序报错
答案:C
[南开大学]21春学期《网络爬虫与信息提取》在线作业-(资料答案)1
![[南开大学]21春学期《网络爬虫与信息提取》在线作业-(资料答案)1](https://img.taocdn.com/s3/m/cb4f9f8725c52cc58ad6be25.png)
[南开大学]21春学期《网络爬虫与信息提取》在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.下列说法错误的是()<A>项.小程序的请求极其简单,基本上没有验证信息<B>项.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
<C>项.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
<D>项.小程序的反爬虫能力比网页版的低很多。
使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
[-标准答案-]:B2.()是一个传递信息的通道。
它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
<A>项.meta<B>项.head<C>项.header<D>项.body[-标准答案-]:A3.启动MongoDB使用命令mongod --() usr/local/etc/mongo<D>项.conf<A>项.config<B>项.install<C>项.start<D>项.begin[-标准答案-]:A4.HTTP常用状态码表明服务器不允许访问那个资源的是()<A>项.500<B>项.503<C>项.403<D>项.405[-标准答案-]:C5.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()<A>项.空<B>项.空列表<C>项.空元组<D>项.不返回[-标准答案-]:B6.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成<A>项.列表<B>项.元组<C>项.字典<D>项.集合[-标准答案-]:A7.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?()<A>项.spiders文件夹<B>项.item.py<C>项.pipelin<E>项.py<D>项.settings.py[-标准答案-]:C8.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题<A>项.s<B>项.c<C>项.d<D>项.r[-标准答案-]:D9.python中可以用来将图片中的文字转换为文本的第三方类库是<A>项.lxml<B>项.requests<C>项.beautifulsoup<D>项.pytesseract[-标准答案-]:D10.在Linux中哪个命令是添加权限的()<A>项.chmod<B>项.sudo<C>项.cp<D>项.mkdir[-标准答案-]:A11.使用python定制mitmproxy,下面的语句请求的是()。
南开大学智慧树知到“计算机科学与技术”《网络爬虫与信息提取》网课测试题答案1

南开大学智慧树知到“计算机科学与技术”《网络爬虫与信息提取》网课测试题答案(图片大小可自由调整)第1卷一.综合考核(共15题)1.使用xpath方法的返回类型是()。
A.列表B.元组C.字典D.集合2.以下哪些方法属于Python写CSV文件的方法?()A.writeheadersB.writeheaderC.writerrowsD.writerow3.在Linux中哪个命令是添加权限的()A.chmodB.sudoC.cpD.mkdir4.使用BeautifulSoup对象后可以使用()来查找内容A.find_allB.findC.searchD.search_all5.Python中跳过本次循环应用关键字()A.breakB.continueC.exitD.return 6.Redis中往集合中读数据,使用关键字()A.popB.spopC.lpopD.range7.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。
于是将数据或者分析结果出售给某基金公司,从而获得销售收入。
这是合法的。
()A.正确B.错误8.Python中定义函数关键字为()。
A.defB.defineC.funcD.function9.requests中get请求方法的使用为requests.get('网址', data=data)。
()T.对F.错10.device.sleep()方法是使用UI Automatorr关闭屏幕的命令。
()A.正确B.错误11.Python中列表可以用()方法在末尾添加元素。
A.addB.appendC.plusD.+12.chrome开发者工具没法对数据进行搜索。
如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看。
()T.对F.错13.Python中()容器有推导式。
A.列表B.元组C.字典D.集合14.在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。
南开大学智慧树知到“计算机科学与技术”《网络爬虫与信息提取》网课测试题答案5

南开大学智慧树知到“计算机科学与技术”《网络爬虫与信息提取》网课测试题答案(图片大小可自由调整)第1卷一.综合考核(共15题)1.Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。
()A.正确B.错误2.请问按哪个键可以打开Chrome自带的开发者工具()A.F10B.F1C.F11D.F123.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()A.列表B.元组C.字典D.集合4.PyMongo中的查找方法的参数是哪种数据结构()A.列表B.元组C.字典D.集合5.爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。
()A.正确B.错误6.Python中有哪些实现多线程方法?()A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB7.UI Automator Viewer与Python uiautomator可以同时使用。
()A.正确B.错误8.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。
()T.对F.错9.HTTP常用状态码表明表明服务器本身发生错误的有()A.403B.404C.500D.50310.当爬虫创建好了之后,可以使用"scrapy()"命令运行爬虫。
A.startupB.starwarC.drawlD.crawl11.下面Python代码输出为:()def default_para_without_trap(para=[],value=0):if not para:para=[]para.append(value)return para print(‘第一步:{}’.format(default_para_trap(value=100))) print(‘第二步:{}’.format(default_para_trap(value=50)))A.第一步:[100]第二步:[100,50]B.第一步:[100]第二步:[50]C.第一步:[100]第二步:[]D.第一步:[100]第二步:[100]12.在配置ios使用Charles的操作中,正确的有()A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任13.Redis是()数据库A.关系数据库B.键值数据库C.列存数据库D.图数据库14.Python中若定义object=“12345”,则print(object[::-1])输出()。
南开大学20秋学期《网络爬虫与信息提取》在线作业答案资料1

[南开大学]20秋学期《网络爬虫与信息提取》在线作业提示:请认真学习本资料,并完成课程复习!!100一、单选题 (共 20 道试题,共 40 分)1.Redis若要进入交互环境,需要打开终端输入()A.redis-cliB.redisC.redis-cmdD.redis-start[本题参考选择是]:A2.使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()A.swipeB.moveC.scrollD.fly[本题参考选择是]:A3.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_3','3')是()A.1B.2C.3D.无输出[本题参考选择是]:C4.Python中若定义object="12345",则print(object[::-1])输出()A.1B.5C.54321D.程序报错[本题参考选择是]:C5.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py[本题参考选择是]:B6.Python中Object=(1, 2, 3, 4, 5),则Objcet是()A.列表B.元组C.字典D.集合[本题参考选择是]:B7.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击A.XSSB.DOSC.DDOSD.跨域[本题参考选择是]:C8.当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
A.startupB.starwarC.drawlD.crawl[本题参考选择是]:D9.Redis是()数据库A.关系数据库B.键值数据库C.列存数据库D.图数据库[本题参考选择是]:B10.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成A.列表B.元组C.字典D.集合[本题参考选择是]:A11.使用UI Automator打开微信的操作是获取相应图标后使用命令()A.touchB.clickC.pushD.hover[本题参考选择是]:B12.使用xpath方法的返回类型是()A.列表B.元组C.字典D.集合[本题参考选择是]:A。
[南开大学]20秋学期《网络爬虫与信息提取》在线作业-辅导材料答案1
![[南开大学]20秋学期《网络爬虫与信息提取》在线作业-辅导材料答案1](https://img.taocdn.com/s3/m/f20a394eaef8941ea76e05c6.png)
[南开大学]20秋学期《网络爬虫与信息提取》在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.Redis若要进入交互环境,需要打开终端输入()[A.]redis-cli[B.]redis[C.]redis-cmd[D.]redis-start提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:A2.使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()[A.]swipe[B.]move[C.]scroll[D.]fly提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:A3.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_3','3')是()[A.]1[B.]2[C.]3[D.]无输出提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:C4.Python中若定义object="12345",则print(object[::-1])输出()[A.]1[B.]5[C.]54321[D.]程序报错提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:C5.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()[A.]spiders文件夹[B.]item.py[C.]pipelin[E.]py[D.]settings.py提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:B6.Python中Object=(1, 2, 3, 4, 5),则Objcet是()[A.]列表[B.]元组[C.]字典[D.]集合提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:B7.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击[A.]XSS[B.]DOS[C.]DDOS[D.]跨域提示:难度适中,请根据所学知识,完成上述题目【正确答案是】:C8.当爬虫创建好了之后,可以使用"scrapy()" 命令运行爬虫。
【南开】《网络爬虫与信息提取》20春期末考核答卷(标准答案)

《网络爬虫与信息提取》20春期末考核-00001试卷总分:100 得分100一、单选题 (共 20 道试题,共 40 分)1.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()A.列表B.元组C.字典D.集合答案:C2.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()A.settextB.setC.set_textD.text答案:C3.在Scrapy的目录下,哪个文件负责存放爬虫文件?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py答案:A4.HTTP常用状态码表明服务器正忙的是()A.500B.503C.403D.404答案:B5.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击A.XSSB.DOSC.DDOSD.跨域答案:C6.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()A.existB.existsC.isnullD.contains答案:B7.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS答案:C8.Redis中查看一个列表长度,使用关键字()A.lenB.lengthC.llenD.count答案:C9.使用Xpath获取文本使用()A.textB.text()C.contentD.content()答案:B10.使用python定制mitmproxy,下面的语句请求的是()。
{req.headers["User-Agent"]}A.headersB.文本内容C.目标网站er-agent答案:D11.Python中Object={1, 2, 3, 4, 5},则Objcet是()A.列表B.元组C.字典D.集合答案:D12.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py答案:D13.Redis是一个开源的使用()语言编写A.ANSI CB.C++C.JAVAD.Python答案:A14.某些网站在发起Ajax请求时会携带()字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum答案:A15.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()A.wakeupB.lightC.brightD.sleep答案:A16.Chrome的开发者工具中哪个选项可以查找到cookiesA.ElementsB.SourcesworkD.Peformance答案:C17.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成A.列表B.元组C.字典D.集合答案:A18.以下哪个命令是创建文件夹命令()A.curlB.tar -zxvfC.mkdirD.cp答案:C19.可以通过()绕过网站登录。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Redis中往集合中添加数据,使用关键字()
A sadd
B add
C append
D sappend
答案:A
9
下面Python代码输出为():
def default_para_without_trap(para=[], value=0):
if not para:
para = []
para.append(value)
20
以下哪个HTML标签表示定义HTML表格中的行()
A <ul>
B <li>
C <tr>
D <td>
答案:C
1
Python中一个函数可以有()个return语句
A 0
B 1
C多个
D 2
答案:CDBA
2
最常见的HTTP请求类型有()
A GET
B POST
二、多选题共10题,20分
C SEND
D RECEIVE
D body
答案:A
3
如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个()
A列表
B元组
C字典
D集合
答案:A
4
下列关于mitmproxy的安装说法错误的是()
A对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxy
A Scrapyd
B ScrapyDeploy
C Deploy
D Scrapy_Deploy
答案:A
6
PyMongo中逻辑查询表示大于的符号是()
A $gt
B $lt
C $gte$$lte
答案:A
7
Python中把列表转换为集合需要使用1函数
A set
B list
C convert
D change
答案:A
return para
print('第一步:{}'.format(default_para_trap(value=100)))
print('第二步:{}'.format(default_para_trap(value=50)))
A第一步:[100]
第二步:[100,50]
B第一步:[100]
第二步:[50]
B在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python 3.5或者更高版本
C在windows系统中无法使用linux的命令,只能通过下载安装包来安装
D UBUNTU中执行命令sudo pip3 install mitmproxy进行安装
答案:C
5
()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
A列表
B元组
C字典
D集合
答案:DCA
10
Redis中的值可以支持()
A列表
B哈希
C集合
D有序集合
答案:CDBA
1
MongoDB在频繁读写方面优于Redis
A对
B错
答案:B
2
Redis的集合与Python的集合一样,没有顺序,值不重复
A对
B错
答案:A
3
插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1
D安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
答案:BD
5
Python中()与元组由类似的数据读取方式
A字符串
B列表
C字典
D集合
答案:AB
6
Python中有哪些实现多线程方法()
A multiprocess.dummy
B threading.Thread
C process
D PyMongoDB
答案:BA
7
要使用tesseract来进行图像识别,需要安装两个第三方库
A requests
B beautifulsoup
C Pillow
D pytesseract
答案:DC
8
BS4可以用来从()中提取数据
A HTML
B XML
C数据库
D JSON
答案:BA
9
Python中()容器有推导式
A组件
B模块
C控件
D单元
答案:A
17
xpath中extract方法返回值类型是()
A列表
B元组
C字典
D集合
答案:A
18
下列哪项不是HTTP的请求类型()
A GET
B POST
C PUT
D SET
答案:D
19
请问按哪个键可以打开Chrome自带的开发者工具()
A F10
B F1
C F11
D F12
答案:D
A headers
B文本内容
C目标网站
D user-agent
答案:D
12
Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出()
A 12
B 123
C 23
D 234
答案:B
13
当需要把Python里面的数据发送给网页时,应先将其转换成()
A Json字符串
答案:BA
3
自动填充验证码的方式有
A手动识别填写
B图像识别
C打码网站
D浏览器自动识别
答案:CB
4
下列关于在IOS上配置charles的说法正确的是()
A不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B手机和电脑需要在同一个局域网下。
C HTTP代理可以使用“自动”选项。
A对
B错
答案:B
4
Python中写CSV文件的writerow方法参数为包含字典的列表类型
A对
B错
答案:B
5
在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服
B GET
C POST
D Request
答案:A
14
以下表示请求பைடு நூலகம்源找不到的HTTP状态码为
A 200
B 301
C 404
D 500
答案:C
15
Redis若要进入交互环境,需要打开终端输入()
A redis-cli
B redis
C redis-cmd
D redis-start
答案:A
16
Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
C第一步:[100]
第二步:[]
D第一步:[100]
第二步:[100]
答案:B
10
Python写CSV文件需要哪个方法()
A CSVWriter
B CsvWriter
C DictWriter
D FileWriter
答案:C
11
使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}
南开20春学期《网络爬虫与信息提取》在线作业满分答案
1
浏览器用来记录用户状态信息的数据叫
A session
B cookies
C moonpies
D selenium
答案:B
2
()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A meta
B head
C header