项目一 单元测试

1、单选题:
关于爬虫的合法性,以下说法正确的是( )。
选项:
A:爬虫抓取数据不需要考虑隐私和版权问题
B:爬虫只能用于学术研究
C:爬虫可以随意抓取任何网站的数据
D:爬虫必须遵守网站的robots协议
答案: 【爬虫必须遵守网站的robots协议

2、判断题:
爬虫爬取的是网站后台的数据。( )
选项:
A:对
B:错
答案: 【

3、判断题:
网络爬虫是一个模拟真人浏览互联网行为的程序。( )
选项:
A:对
B:错
答案: 【

4、单选题:
爬虫的核心目的是( )。
选项:
A:自动化地收集和提取互联网上的信息
B:篡改网页内容
C:监控网络流量
D:破坏网站安全
答案: 【自动化地收集和提取互联网上的信息

5、多选题:
以下爬虫遵守的原则是( )。
选项:
A:抓取所有可访问的数据,无论是否允许
B:尊重版权和隐私
C:遵守robots.txt协议
D:尽可能减少对目标网站的影响
答案: 【尊重版权和隐私;
遵守robots.txt协议;
尽可能减少对目标网站的影响

项目二 单元测试

1、判断题:
一旦服务器端出现错误,返回的状态码为403。( )
选项:
A:错
B:对
答案: 【

2、单选题:
访问网页成功,下列代码rq=requests.get(url)print(rq.status_code)返回的结果为( )。
选项:
A:500
B:304
C:200
D:403
答案: 【200

3、单选题:
Requests库中的get()方法最常用,下面哪个说法正确( )。
选项:
A:服务器因为安全原因对其他方法进行限制,所以,get()方法最常用。
B:get()方法是其它方法的基础,所以最常用。
C:网络爬虫主要进行信息获取,所以get()方法最常用。
D:HTTP协议中GET方法应用最广泛,所以,get()方法最常用。
答案: 【服务器因为安全原因对其他方法进行限制,所以,get()方法最常用。

4、单选题:
Python中用于发送HTTP请求的库是( )。
选项:
A:json
B:re
C:urllib
D:os
答案: 【urllib

5、单选题:
以下哪个方法用于发送GET请求( )。
选项:
A:requests.fetch()
B:requests.post()
C:requests.get()
D:requests.send()
答案: 【

剩余70%内容付费后可查看