书山有路勤为径,学海无涯苦作舟!住在富人区的她南开大学22春“计算机科学与技术”《网络爬虫与信息提取》作业考核题库高频考点版(参考答案)一.综合考核(共50题)1.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。()A.正确B.错误参考答案:A2.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB3.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()A.正确B.错误参考答案:A4.为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法?()A.仔细检查代码B.开发爬虫中间件C.开发下载器中间件D.等待参考答案:AB书山有路勤为径,学海无涯苦作舟!住在富人区的她5.PyMongo更新操作有()。A.updateB.update_allC.update_oneD.update_many参考答案:CD6.Python中哪种容器一旦生成就不能修改?()A.列表B.元组C.字典D.集合参考答案:B7.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。()A.正确B.错误参考答案:A8.Python中把列表转换为集合需要使用()函数。A.setB.listC.convertD.change参考答案:A9.HTTP常用状态码表明服务器正忙的是()A.500B.503书山有路勤为径,学海无涯苦作舟!住在富人区的她C.403D.404参考答案:B10.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。()A.正确B.错误参考答案:A11.下面Python代码输出为:()defdefault_para_trap(para=[],value=0):para.append(value)returnparaprint(‘第一步:{}’.format(default_para_trap(value=100)))print(‘第二步:{}’.format(default_para_trap(value=50)))A.第一步:[100]第二步:[100,50]B.第一步:[100]第二步:[50]C.第一步:[100]第二步:[]D.第一步:[100]第二步:[100]参考答案:A12.HTTP状态码302表示资源永久重定向。()T.对F.错参考答案:F13.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。()A.正确B.错误参考答案:B书山有路勤为径,学海无涯苦作舟!住在富人区的她14.Python写CSV文件需要哪个方法()A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C15.下列说法错误的是()。A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包B.命令行中执行mitmdump-sparse_request.py即可运行python脚本C.使用python可以自定义返回的数据包,如response.headers,就是返回的头部信息D.如果返回的是JSON类型的字符串,python无法进行解析参考答案:D16.通用网络爬虫通常采用串行工作方式。()A.正确B.错误参考答案:B17.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。()T.对F.错参考答案:T18.Redis中的值可以支持()A.列表B.哈希书山有路勤为径,学海无涯苦作舟!住在富人区的她C.集合D.有序集合参考答案:ABCD19.当需要把Python里面的数据发送给网页时,应先将其转换成()A.Json字符串B.GETC.POSTD.Request参考答案:A20.Charles和Chrome开发者工具相比,只是多了一个搜索功能。()A.正确B.错误参考答案:B21.一般来说在页面都通过GET将用户登录信息传递到服务器端。()A.正确B.错误参考答案:B22.Python操作CSV文件可通过()容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C书山有路勤为径,学海无涯苦作舟!住在富人区的她23.以下哪个HTML标签表示定义文档的主体()A.pB.bodyC.headD.footer参考答案:B24.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:B25.下列说法错误的是()。A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP...