Scrapy网络爬虫实战
上QQ阅读APP看书,第一时间看更新

前 言

读懂本书

还在复制粘贴找数据?

我想要这个网站上的数据,该怎么办?打开网站,复制,打开文本,粘贴……重复、重复、重复。

——费时、费力、错误多!

讲解晦涩难懂?

道理我都懂,可是要怎么做?这些数据我都想要,可是要怎么开始?本书不仅介绍Scrapy爬虫的原理,而且还给出实战案例让读者应用它们。

——爬虫的使用才是硬道理。

本书真的适合你吗?

本书帮你从零开始学习Scrapy爬虫技术,从基本的网络请求原理到抓取数据的保存,从单页面数据的下载到全站数据的爬取,从文本文档到数据库存储,本书介绍了实际使用中的各种基础知识。

——爬虫零基础?没关系,本书给出了从零开始学习的新手方案。

本书涉及的技术或框架

Python

Requests

BeautifulSoup

Selenium

HTTP

JSON

XPATH

CSS

MySQL

MongoDB

Visual Studio

Chrome调试

本书涉及的示例和案例

抓取知乎热榜

名言网站抓取

博客园Python类文章抓取

深圳市社会保障局下载中心文件下载

链家数据保存至MongoDB

豆瓣使用Cookies登录

抓取cnBeta科技类文章

伯乐在线订阅源数据抓取

伯乐在线最新文章抓取保存

起点小说网站小说封面抓取

豆瓣模拟提交表单登录

使用代理与统计链家小区信息

名言网站数据统计

IT之家新闻抓取

猫眼电影top100抓取并发送邮件

SegmentFault全网用户信息抓取