data:image/s3,"s3://crabby-images/107ce/107cebe65596af7ead99b4609575fad80d2ac263" alt="大数据采集与爬虫"
上QQ阅读APP看书,第一时间看更新
2.6 任务实现
本任务将实现使用BeautifulSoup库、lxml库和requests库完成对百度标题的爬取和解析任务。
1)在Python文件中导入requests库和BeautifulSoup库。
data:image/s3,"s3://crabby-images/829d2/829d2a4f73ea2ff1d1db441b3c29938b9d77992e" alt=""
2)使用requests.get()方法获得指定页面数据。
data:image/s3,"s3://crabby-images/e3ab9/e3ab9809395f64b8554518074ac589270526d359" alt=""
3)由于requests对象的默认编码方式不是utf-8,因此可能导致乱码,所以先设置requests.encoding='utf-8'。
data:image/s3,"s3://crabby-images/fe6ba/fe6ba6b54ca1a18c14000bd157e60852d918572b" alt=""
4)在BeautifulSoup中使用lxml作为解析器,解析request.text得到的页面数据。
data:image/s3,"s3://crabby-images/3b844/3b844dd6b4e9ba47ab14868b5629c46fbb8676ed" alt=""
5)输出指定的页面标签文本。这里介绍两种方式。
① 直接使用需要查找的标签名。
data:image/s3,"s3://crabby-images/9e21c/9e21c29725997067bcaed9197a42347ce560f1e5" alt=""
② 使用select方法选择需要查找的标签路径。
data:image/s3,"s3://crabby-images/0dd88/0dd88bd01e58b118597648946e1610a1ebf61897" alt=""
标签路径可以通过浏览器的开发者工具获取。其具体获取方法是:打开指定页面后,按〈F12〉键,打开开发者工具,选择指定的页面元素并右击,在弹出的快捷菜单中选择“Copy”→ “Copy selector”命令,如图2-15所示。
data:image/s3,"s3://crabby-images/86448/864484619d4fde5451ffa7d5e02d5e39157c0acf" alt=""
图2-15 获得页面元素标签路径
6)显示结果如图2-17所示。
data:image/s3,"s3://crabby-images/ff7b2/ff7b27ba358aa41b132580333de8281901ba2ab6" alt=""
图2-17 标签查询结果显示
这样就使用requests库和BeautifulSoup库成功地抓取了百度页面中标签为<title>的文本内容。本任务的完整代码如下。
data:image/s3,"s3://crabby-images/744a7/744a7d676bb83b0164529e592b46dd882c9e0a76" alt=""