2.6 爬虫常用类库1：Python中的HTTP基本库urllib_Scrapy网络爬虫实战-QQ阅读中文仙侠网

上QQ阅读APP看书，第一时间看更新

2.6 爬虫常用类库1：Python中的HTTP基本库urllib

我们已经了解到，爬虫简单来说就是发送请求并获取信息。道理很简单，但怎么发送请求呢？幸运的是，使用Python标准库和第三方库都能实现此功能。接下来我们将介绍这些标准库及第三方库。urllib是Python内置的标准库，无须安装即可使用。

2.6.1 发送请求

基本的网络请求方法为urlopen，方法原型为：

参数说明如下。

　url：访问的地址，也可以是一个Request。
　data：若指定data值，则变为POST请求（注意：data传递的参数需要转为bytes，可通过urllib.parse.urlencode进行转换）。
　timeout：设置网站的请求超时时间。
　cafile：在访问HTTPS网站时，可使用此参数指定单个CA证书文件。
　capath：在访问HTTPS网站时，可使用此参数指定CA证书文件路径。
　cadefault：此参数已废弃。
　context：必须指定为描述SSL选项的ssl.SSLContext实例。

urlopen()返回对象可用的方法如下。

　read()：返回响应信息。
　geturl()：返回响应的网址。
　getcode()：返回响应码。
　info()：返回页面元信息，比如头部信息等。

打开一个无参数请求，默认为GET请求：

如果发送的GET请求有参数，就需要用到urllib.parse中的urlencode将请求参数进行URL编码，拼接之后再进行发送：

如果要发送POST请求，就需要加上data参数：

2.6.2 使用Cookie

Cookie是当浏览某网站时，网站存储的信息文件，它记录了用户的ID、密码、浏览记录、浏览时间等信息。当同一用户再次访问该网站时，网站通过读取Cookie，获取用户的相关信息，比如用户名、密码，用于自动登录。Cookie在爬虫操作中很常用，特别是针对一些需要登录才能抓取信息的网站的抓取工作。使用urllib操作网站Cookie需要用到urllib.request.HTTPCookieProcessor(cookie)。使用Cookie需要创建一个opener。在Python的http包中包含cookiejar模块，用于提供对Cookie的支持。http.cookiejar功能强大，我们可以利用本模块的CookieJar类的对象来捕获Cookie，并在后续连接请求时重新发送，比如可以实现模拟登录功能。使用方法如下：

【示例2-7】urllib获取Cookie

输出结果如图2.12所示。

图2.12 获取Cookie

【示例2-8】urllib保存Cookie

保存结果如图2.13所示。

图2.13 保存Cookie

【示例2-9】urllib使用Cookie

运行结果如图2.14所示。

图2.14 使用Cookie