Py学习  »  Python

Python3网络爬虫开发实战终于上市了

图灵教育 • 5 年前 • 600 次点击  

要说4月份最受大家关注的图灵书是哪本?除了火爆编程圈的《程序员的英语》,就要数这本《Python3网络爬虫开发实战》了,作者是静觅博客博主崔庆才,博客Python爬虫博文点击阅读量已过百万。这本书还未上市就已经重印了3次,首批预售就登上当当、京东等新书销量排行榜首位。


怎奈之前印厂不给力,让读者们久等了。有个好消息就是,这本书今天正式上市了,学习爬虫的小伙伴终于可以如愿以偿地把它抱回家了。那话不多说,赶快来了解一下这本书吧!


书籍介绍

《Python3网络爬虫开发实战》全面介绍了利用Python3开发网络爬虫的知识。

书中首先详细介绍了各种类型的环境配置过程和爬虫基础知识

然后讨论了urllib、request等请求库和Beautiful SoupXPathpyquery等解析库以及文本和各类数据库的存储方法。


另外,本书通过多个真实新鲜案例介绍了分析Ajax进行数据爬取,SeleniumSplash进行动态网站爬取的过程,接着又分享了一些切实可行的爬虫技巧,比如使用代理爬取和维护动态代理池的方法、ADSL拨号代理的使用、各类验证码(图形、极验、点触、宫格等)的破解方法、模拟登录网站爬取的方法及Cookies池的维护等等。


本书的内容还远远不止这些,作者还结合移动互联网的特点探讨了使用Charles、mitmdump、Appium等多种工具实现App抓包分析、加密参数接口爬取、微信朋友圈爬取的方法。还详细介绍了pyspider框架、Scrapy框架的使用和分布式爬虫的知识。

对于优化及部署工作,本书还包括Bloom Filter效率优化、DockerScrapyd 爬虫部署、分布式爬虫管理框架Gerapy的分享。

全书共604页,足足两斤重呢~ 定价为99元!




作者简介

崔庆才静觅博客博主,博客Python爬虫博文点击阅读量已过百万。博客地址:https://cuiqingcai.com

北京航空航天大学硕士,微软小冰大数据工程师,有多个大型分布式爬虫项目经验,乐于技术分享,文章通俗易懂。顺便附上作者皂片一张~(@^_^@)~



专家推荐

还要感谢各位专家大大们对这本书中肯的评价,你可以看看专家怎么说再决定是否需要这本书?

1. 在互联网软件开发工程师的分类中,爬虫工程师是非常重要的。爬虫工作往往是一个公司核心业务开展的基础,数据抓取下来,才有后续的加工处理和最终展现。此时数据的抓取规模、稳定性、实时性、准确性就显得非常重要。早期的互联网充分开放互联,数据获取的难度很小。随着各大公司对数据资产日益看重,反爬水平也在不断提高,各种新技术不断给爬虫软件提出新的课题。本书作者对爬虫的各个领域都有深刻研究,书中探讨了Ajax数据的抓取、动态渲染页面的抓取、验证码识别、模拟登录等高级话题,同时也结合移动互联网的特点探讨了App的抓取等。更重要的是,本书提供了大量源码,可以帮助读者更好地理解相关内容。强烈推荐给各位技术爱好者阅读!

——梁斌,八友科技总经理


2. 数据既是当今大数据分析的前提,也是各种人工智能应用场景的基础。得数据者得天下,会爬虫者走遍天下也不怕!一册在手,让小白到老司机都能有所收获!

——李舟军,北京航空航天大学教授,博士生导师


3. 本书从爬虫入门到分布式抓取,详细介绍了爬虫技术的各个要点,并针对不同的场景提出了对应的解决方案。另外,书中通过大量的实例来帮助读者更好地学习爬虫技术,通俗易懂,干货满满。强烈推荐给大家!

——宋睿华,微软小冰首席科学家


4. 有人说中国互联网的带宽全给各种爬虫占据了,这说明网络爬虫的重要性以及中国互联网数据封闭垄断的现状。爬是一种能力,爬是为了不爬。

——施水才,北京拓尔思信息技术股份有限公司总裁



图文详解



第1章 开发环境配置  1

1.1 Python 3 的安装  1

1.2 请求库的安装  10

1.3 解析库的安装  19

1.4 数据库的安装  26

1.5 存储库的安装  39

1.6 Web 库的安装  41

1.7 App 爬取相关库的安装  43

1.8 爬虫框架的安装  59

1.9 部署相关库的安装  67

第2章 爬虫基础  77

2.1 HTTP基本原理  77

2.2 网页基础  87

2.3 爬虫的基本原理  93

2.4 会话和 Cookies  95

2.5 代理的基本原理  99

第3章 基本库的使用  102

3.1 使用 urllib  102

3.2 使用 requests  122

3.4 抓取猫眼电影排行  150

第4章 解析库的使用  158

4.1 使用 XPath  158

4.2 使用 Beautiful Soup  168

4.3 使用 pyquery  184

第5章 数据存储  197

5.1 文件存储  197

5.2 关系型数据库存储  207

5.3 非关系型数据库存储  213

第6章 Ajax数据爬取  232

6.1 什么是 Ajax  232

6.2 Ajax 分析方法  234

6.3 Ajax 结果提取  238

6.4 分析 Ajax 爬取今日头条街拍美图  242

第7章 动态渲染页面爬取  249

7.1 Selenium 的使用  249

7.2 Splash 的使用  262

7.3 Splash 负载均衡配置  286

7.4 使用 Selenium 爬取淘宝商品  289

第8章 验证码的识别  298

8.1 图形验证码的识别  298

8.2 极验滑动验证码的识别  301

8.3 点触验证码的识别  311

8.4 微博宫格验证码的识别  318

第9章 代理的使用  326

9.1 代理的设置  326

9.2 代理池的维护  333

9.3 付费代理的使用  347

9.4 ADSL 拨号代理  351

9.5 使用代理爬取微信公众号文章  364

第10章 模拟登录  379

10.1 模拟登录并爬取 GitHub  379

10.2 Cookies 池的搭建  385

第11章 App 的爬取  398

11.1 Charles 的使用  398

11.2 mitmproxy 的使用  405

11.3 mitmdump 爬取“得到”App电子书信息  417

11.4 Appium 的基本使用  423

11.5 Appium 爬取微信朋友圈  433

11.6 Appium+mitmdump 爬取京东商品  437

第12章 pyspider 框架的使用  443

12.1 pyspider 框架介绍  443

12.2 pyspider 的基本使用  445

12.3 pyspider 用法详解  459

第13章 Scrapy 框架的使用  468

13.1 Scrapy 框架介绍  468

13.2 Scrapy 入门  470

13.3 Selector 的用法  480

13.4 Spider 的用法  486

13.5 Downloader Middleware 的用法  487

13.6 Spider Middleware 的用法  494

13.7 Item Pipeline 的用法  496

13.8 Scrapy 对接 Selenium  506

13.9 Scrapy 对接 Splash  511

13.10 Scrapy 通用爬虫  516

13.11 Scrapyrt 的使用  533

13.12 Scrapy 对接 Docker  536

13.13 Scrapy 爬取新浪微博  541

第14章 分布式爬虫  555

14.1 分布式爬虫原理  555

14.2 Scrapy-Redis 源码解析  558

14.3 Scrapy 分布式实现  564

14.4 Bloom Filter 的对接  569

第15章 分布式爬虫的部署  577

15.1 Scrapyd 分布式部署  577

15.2 Scrapyd-Client 的使用  582


如何购买

想必很多小伙伴已经等了很久了,之前因为刚一发售就已售空,所以,预售那么久一直迟迟没有货,不过现在不用担心这个问题了!扫描下方二维码即可在京东、天猫、当当等网店购买。

扫一扫,京东购


扫一扫,天猫购

扫一扫,当当购

如果你还想看看书里具体都讲了什么?那就来免费试读吧!

试读章节一直开放到第7章。地址:

https://cuiqingcai.com/5052.html。



读者福利

今天作为这本书正式上市的日子,我们准备了多种福利形式,以感谢大家的支持。以下有3种参与办法,另外,图灵教育也给大家准备了赠书,详情见文末。


福利一:抽奖送书!!!

抽奖送书活动第一波来袭(后面还有很多波哦),公众号进击的Coder (ID:FightingCoder,下面已给出二维码)抽奖送30作者亲笔签名书籍!!!

活动流程(重要,请认真阅读):


1. 在公众号进击的Coder回复“抽奖”来获取抽奖码,请记住您的抽奖码,截止到2018.5.15 22:00,逾期参与无效。

活动结束后会从参与活动的小伙伴中随机抽取30位并在微信公众号公布,届时请关注公众号消息!获奖的小伙伴会获得作者亲笔签名的《Python3网络爬虫开发实战》一本。


2. 参加活动的小伙伴可以提前填写好收货地址,以免中奖之后联系不上无法发货,地址填写入口在公众号回复“抽奖”后返回图文结果的第三个。本活动绝对会保证您的地址隐私安全,如不放心可在得知中奖结果后填写,如果公布结果后七天内未填写收货地址,则视为放弃。



福利二:独家优惠!!!

等等,你以为这就是全部福利吗?当然不是!

除了抽奖送书,拨号VPS知名品牌云立方也提供了独家优惠,在公众号(进击的Coder)中回复:“优惠券”,即可免费领取云立方50元主机优惠券,数量有限,先到先得!优惠券可在云立方官网www.yunlifang.cn购买动态IP拨号VPS时抵扣现金,有了它,爬虫代理易如反掌!

你问我动态拨号VPS能做什么?应该怎么用在爬虫里?来这里了解一下:

轻松获得海量稳定代理!ADSL拨号代理的搭建(可点击)



福利三:视频课程!!!

当然除了书籍,也有配套的视频课程,视频的作者同样是崔庆才,书和视频二者结合学习效果更佳哦!限时优惠折扣中!扫描下图二维码即可了解详情!

最后也是最重要的就是参与活动的地址了!!!快来扫码回复领取属于你的福利吧!!!

扫一扫,赢取福利



文末福利

本期为大家送出5本《Python3网络爬虫开发实战》。

小伙伴们可以说说平时工作中都用爬虫做些什么?还没入门爬虫的小伙伴说说爬虫的哪些方面最吸引你?

精选留言选出5位获得赠书。截止2018年5月8日。



☟ 点击【阅读原文】查看作者博客


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/5TaWQmtCdy
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/11469
 
600 次点击