要说4月份最受大家关注的图灵书是哪本?除了火爆编程圈的《程序员的英语》,就要数这本《Python3网络爬虫开发实战》了,作者是静觅博客博主崔庆才,博客Python爬虫博文点击阅读量已过百万。这本书还未上市就已经重印了3次,首批预售就登上当当、京东等新书销量排行榜首位。
怎奈之前印厂不给力,让读者们久等了。有个好消息就是,这本书今天正式上市了,学习爬虫的小伙伴终于可以如愿以偿地把它抱回家了。那话不多说,赶快来了解一下这本书吧!
书籍介绍
《Python3网络爬虫开发实战》全面介绍了利用Python3开发网络爬虫的知识。
书中首先详细介绍了各种类型的环境配置过程和爬虫基础知识。
然后讨论了urllib、request等请求库和Beautiful Soup、XPath、pyquery等解析库以及文本和各类数据库的存储方法。
另外,本书通过多个真实新鲜案例介绍了分析Ajax进行数据爬取,Selenium和Splash进行动态网站爬取的过程,接着又分享了一些切实可行的爬虫技巧,比如使用代理爬取和维护动态代理池的方法、ADSL拨号代理的使用、各类验证码(图形、极验、点触、宫格等)的破解方法、模拟登录网站爬取的方法及Cookies池的维护等等。
本书的内容还远远不止这些,作者还结合移动互联网的特点探讨了使用Charles、mitmdump、Appium等多种工具实现App抓包分析、加密参数接口爬取、微信朋友圈爬取的方法。还详细介绍了pyspider框架、Scrapy框架的使用和分布式爬虫的知识。
对于优化及部署工作,本书还包括Bloom Filter效率优化、Docker和Scrapyd
爬虫部署、分布式爬虫管理框架Gerapy的分享。
全书共604页,足足两斤重呢~ 定价为99元!
作者简介
崔庆才,静觅博客博主,博客Python爬虫博文点击阅读量已过百万。博客地址:https://cuiqingcai.com。
北京航空航天大学硕士,微软小冰大数据工程师,有多个大型分布式爬虫项目经验,乐于技术分享,文章通俗易懂。顺便附上作者皂片一张~(@^_^@)~
专家推荐
还要感谢各位专家大大们对这本书中肯的评价,你可以看看专家怎么说再决定是否需要这本书?
1. 在互联网软件开发工程师的分类中,爬虫工程师是非常重要的。爬虫工作往往是一个公司核心业务开展的基础,数据抓取下来,才有后续的加工处理和最终展现。此时数据的抓取规模、稳定性、实时性、准确性就显得非常重要。早期的互联网充分开放互联,数据获取的难度很小。随着各大公司对数据资产日益看重,反爬水平也在不断提高,各种新技术不断给爬虫软件提出新的课题。本书作者对爬虫的各个领域都有深刻研究,书中探讨了Ajax数据的抓取、动态渲染页面的抓取、验证码识别、模拟登录等高级话题,同时也结合移动互联网的特点探讨了App的抓取等。更重要的是,本书提供了大量源码,可以帮助读者更好地理解相关内容。强烈推荐给各位技术爱好者阅读!
——梁斌,八友科技总经理
2. 数据既是当今大数据分析的前提,也是各种人工智能应用场景的基础。得数据者得天下,会爬虫者走遍天下也不怕!一册在手,让小白到老司机都能有所收获!
——李舟军,北京航空航天大学教授,博士生导师
3. 本书从爬虫入门到分布式抓取,详细介绍了爬虫技术的各个要点,并针对不同的场景提出了对应的解决方案。另外,书中通过大量的实例来帮助读者更好地学习爬虫技术,通俗易懂,干货满满。强烈推荐给大家!
——宋睿华,微软小冰首席科学家
4. 有人说中国互联网的带宽全给各种爬虫占据了,这说明网络爬虫的重要性以及中国互联网数据封闭垄断的现状。爬是一种能力,爬是为了不爬。
——施水才,北京拓尔思信息技术股份有限公司总裁
图文详解
第1章 开发环境配置 1
1.1 Python 3 的安装 1
1.2 请求库的安装 10
1.3 解析库的安装 19
1.4 数据库的安装 26
1.5 存储库的安装 39
1.6 Web 库的安装 41
1.7 App 爬取相关库的安装 43
1.8 爬虫框架的安装 59
1.9 部署相关库的安装 67
第2章 爬虫基础 77
2.1 HTTP基本原理 77
2.2 网页基础 87
2.3 爬虫的基本原理 93
2.4 会话和 Cookies 95
2.5 代理的基本原理 99
第3章 基本库的使用 102
3.1 使用 urllib 102
3.2 使用 requests 122
3.4 抓取猫眼电影排行 150
第4章 解析库的使用 158
4.1 使用 XPath 158
4.2 使用 Beautiful Soup 168
4.3 使用 pyquery 184
第5章 数据存储 197
5.1 文件存储 197
5.2 关系型数据库存储 207
5.3 非关系型数据库存储 213
第6章 Ajax数据爬取 232
6.1 什么是 Ajax 232
6.2 Ajax 分析方法 234
6.3 Ajax 结果提取 238
6.4 分析 Ajax 爬取今日头条街拍美图 242
第7章 动态渲染页面爬取 249
7.1 Selenium 的使用 249
7.2 Splash 的使用 262
7.3 Splash 负载均衡配置 286
7.4 使用 Selenium 爬取淘宝商品 289
第8章 验证码的识别 298
8.1 图形验证码的识别 298
8.2 极验滑动验证码的识别 301
8.3 点触验证码的识别 311
8.4 微博宫格验证码的识别 318
第9章 代理的使用 326
9.1 代理的设置 326
9.2 代理池的维护 333
9.3 付费代理的使用 347
9.4 ADSL 拨号代理 351
9.5 使用代理爬取微信公众号文章 364
第10章 模拟登录 379
10.1 模拟登录并爬取 GitHub 379
10.2 Cookies 池的搭建 385
第11章 App 的爬取 398
11.1 Charles 的使用 398
11.2 mitmproxy 的使用 405
11.3 mitmdump 爬取“得到”App电子书信息 417
11.4 Appium 的基本使用 423
11.5 Appium 爬取微信朋友圈 433
11.6 Appium+mitmdump 爬取京东商品 437
第12章 pyspider 框架的使用 443
12.1 pyspider 框架介绍 443
12.2 pyspider 的基本使用 445
12.3 pyspider 用法详解 459
第13章 Scrapy 框架的使用 468
13.1 Scrapy 框架介绍 468
13.2 Scrapy 入门 470
13.3 Selector 的用法 480
13.4 Spider 的用法 486
13.5 Downloader Middleware 的用法 487
13.6 Spider Middleware 的用法 494
13.7 Item Pipeline 的用法 496
13.8 Scrapy 对接 Selenium 506
13.9 Scrapy 对接 Splash 511
13.10 Scrapy 通用爬虫 516
13.11 Scrapyrt 的使用 533
13.12 Scrapy 对接 Docker 536
13.13 Scrapy 爬取新浪微博 541
第14章 分布式爬虫 555
14.1 分布式爬虫原理 555
14.2 Scrapy-Redis 源码解析 558
14.3 Scrapy 分布式实现 564
14.4 Bloom Filter 的对接 569
第15章 分布式爬虫的部署 577
15.1 Scrapyd 分布式部署 577
15.2 Scrapyd-Client 的使用 582
如何购买
想必很多小伙伴已经等了很久了,之前因为刚一发售就已售空,所以,预售那么久一直迟迟没有货,不过现在不用担心这个问题了!扫描下方二维码即可在京东、天猫、当当等网店购买。
扫一扫,京东购
扫一扫,天猫购
扫一扫,当当购
如果你还想看看书里具体都讲了什么?那就来免费试读吧!
试读章节一直开放到第7章。地址:
https://cuiqingcai.com/5052.html。
读者福利
今天作为这本书正式上市的日子,我们准备了多种福利形式,以感谢大家的支持。以下有3种参与办法,另外,图灵教育也给大家准备了赠书,详情见文末。
福利一:抽奖送书!!!
抽奖送书活动第一波来袭(后面还有很多波哦),公众号进击的Coder (ID:FightingCoder,下面已给出二维码)会抽奖送30本作者亲笔签名书籍!!!
活动流程(重要,请认真阅读):
1. 在公众号进击的Coder回复“抽奖”来获取抽奖码,请记住您的抽奖码,截止到2018.5.15 22:00,逾期参与无效。
活动结束后会从参与活动的小伙伴中随机抽取30位并在微信公众号公布,届时请关注公众号消息!获奖的小伙伴会获得作者亲笔签名的《Python3网络爬虫开发实战》一本。
2. 参加活动的小伙伴可以提前填写好收货地址,以免中奖之后联系不上无法发货,地址填写入口在公众号回复“抽奖”后返回图文结果的第三个。本活动绝对会保证您的地址隐私安全,如不放心可在得知中奖结果后填写,如果公布结果后七天内未填写收货地址,则视为放弃。
福利二:独家优惠!!!
等等,你以为这就是全部福利吗?当然不是!
除了抽奖送书,拨号VPS知名品牌云立方也提供了独家优惠,在公众号(进击的Coder)中回复:“优惠券”,即可免费领取云立方50元主机优惠券,数量有限,先到先得!优惠券可在云立方官网www.yunlifang.cn购买动态IP拨号VPS时抵扣现金,有了它,爬虫代理易如反掌!
你问我动态拨号VPS能做什么?应该怎么用在爬虫里?来这里了解一下:
轻松获得海量稳定代理!ADSL拨号代理的搭建(可点击)
福利三:视频课程!!!
当然除了书籍,也有配套的视频课程,视频的作者同样是崔庆才,书和视频二者结合学习效果更佳哦!限时优惠折扣中!扫描下图二维码即可了解详情!
最后也是最重要的就是参与活动的地址了!!!快来扫码回复领取属于你的福利吧!!!
扫一扫,赢取福利
文末福利
本期为大家送出5本《Python3网络爬虫开发实战》。
小伙伴们可以说说平时工作中都用爬虫做些什么?还没入门爬虫的小伙伴说说爬虫的哪些方面最吸引你?
精选留言选出5位获得赠书。截止2018年5月8日。
☟ 点击【阅读原文】查看作者博客