大家好!我是崔庆才。
大家可能知道我在去年年底刚刚出版了《Python3网络爬虫开发实战(第二版)》,短短几个月来,现在已经印刷四次,售出约三万册。
为了感谢大家的支持,同时也继续宣传下这本书,我来做赠书活动啦,一共送 10 本,活动为期一周。
书籍简介
没错,就是这本:

我个人于 2015 年研究 Python 爬虫技术,并于 2018 年出版了个人第一版爬虫书《Python3 网络爬虫开发实战》,出版至今,此本书一直处于市面上所有爬虫书的销冠位置,销量 10w 册,豆瓣评分 9.0。
Python 爬虫技术的基本内容包括网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点,但技术不是一成不变的,随着近几年时代的发展,一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现,而现在网上的爬虫文章也存在着极大问题,一个是内容泛滥不堪、同质化严重,另一个是几乎没有几篇博文能紧跟前沿技术,多数还停留在几年前的水平,而且很多爬虫教程所用案例已经非常老旧而且多数也无法运行,这极大地打击了初学者的自信心。
是的,所以在 2021 年底,我又出版了《Python3 网络爬虫开发实战(第二版)》,对旧的爬虫技术内容进行了全面更新,搭建了全新的案例平台进行全面讲解,
目前截止 2022 年,可以将爬虫基本技术进行系统讲解,同时将最新前沿爬虫技术如异步、JavaScript 逆向、AST、安卓逆向、Hook、智能解析、群控技术、WebAssembly、大规模分布式、Docker、Kubernetes 等,市面上目前应该就仅有这本《Python3 网络爬虫开发实战(第二版)》可以做到了。
第二版更新内容
大家第一个问题可能就会问,第二版比第一版更新了哪些内容?
因为技术总是在不断发展和进步的,爬虫技术也是一样,它在爬虫和反爬虫不断斗争的过程中也在不断演进。比如现在越来越多的网页采取了各种防护措施,比如前端代码的压缩和混淆、API 的参数加密、WebDriver 的检测,要做到高效的数据爬取,我们就需要懂得一些 JavaScript 逆向分析相关技术。App 也是一样,App 的抓包防护、加壳保护、Native 化、风控检测使得越来越多的 App 数据难以爬取,所以我们也不得不了解一些逆向相关技术,如 Xposed、Frida、IDA Pro 等工具的使用。除此之外,近几年深度学习和人工智能发展得也是如火如荼,所以爬虫也可以和人工智能结合起来,比如基于深度学习的验证码识别、网页内容的智能化解析和提取等技术我们也可以进行学习和了解。另外,一些大规模爬虫的管理和运维技术也在不断发展,当前 Kubernetes、Docker、Prometheus 等云原生技术也非常火爆,基于 Kubernetes 等云原生技术的爬虫管理和运维解决方案也已经很受青睐。然而,之前第一版书对以上提到的这些新兴技术几乎没有提及。
除此之外,第一版书在讲解数据爬取的过程中引用了很多案例和服务,比如猫眼电影网站、淘宝网站、代理服务网站,然而几年过去了,有些案例网站和服务早已经改版或者停止维护,这就导致第一版书中的很多案例已经不能正常运行了。这其实是一个很大的问题,因为程序运行不通会大大降低学习的积极性和成就感,而且会浪费不少时间。另外,即使案例对应的爬虫代码及时更新了,那我们也不知道这些案例网站和服务什么时候会再次改版,因为这都是不可控的。所以,为了彻底解决这个问题,我花费了近半年的时间构建了一个爬虫案例平台(https://scrape.center),平台包含了几十个爬虫案例,包括服务端渲染(SSR)网站、单页面应用(SPA)网站、各类反爬网站、验证码网站、模拟登录网站、各类 App 等,覆盖了现在爬虫和反爬虫相关的大多数技术,整个平台都是我来维护的,书中几乎所有案例都是从案例平台来的,从而解决了页面改版的问题。
所以,本书相比第一版来说,更新的内容主要如下:
绝大多数都迁移到了自建的案例平台,以后再也不用担心案例有过期或改版问题。
替换了原本第一章环境安装的章节,将环境配置的部分全部汇总并迁移到案例平台(https://setup.scrape.center)并在书中以外链的形式附上,以确保环境的配置和安装说明能够被及时更新。
增加了一些新的请求库、解析库、存储库等的介绍,如 httpx、parsel、Elasticsearch 等库的介绍。
增加了异步爬虫的介绍,如协程的基本原理、aiohttp 的使用和爬取实战介绍。
增加了一些新兴自动化工具的介绍,如 Pyppeteer、Playwright 的介绍。
增加了深度学习相关内容,如图形验证码、滑动验证码的识别方案。
丰富了模拟登录章节的内容,如增加了 JWT 模拟登录的介绍和实战、大规模账号池的优化。
增加了 JavaScript 逆向的章节,包括网站加密和混淆技术、JavaScript 逆向调试技巧、JavaScript 的各种模拟执行方式、AST 还原混淆代码、WebAssembly 等相关技术的介绍。
丰富了 App 自动化爬取技术的章节,如新兴框架 Airtest 的介绍、手机群控和云手机技术的介绍。
增加了 Android 逆向章节,如反编译、反汇编、Hook、脱壳、so 文件分析和模拟执行等技术的介绍。
增加了网页智能化解析章节,包括列表页、详情页内容提取算法和分类算法。
丰富了 Scrapy 相关章节的介绍,如 Pyppeteer 的对接、RabbitMQ 的对接、Prometheus 的对接等。
-
增加了基于 Kubernetes、Docker、Prometheus、Grafana 等云原生技术爬虫管理和运维解决方案的介绍。
以上就是第二版的主要更新内容。
可以直接看第二版吗?
当然,有朋友也会担心,我需不需要先学习第一版,然后才能学第二版呢?
答案是:可以直接学第二版,第二版书爬虫的内容知识体系是完整的,一些旧的技术已经在第一版中移除,第二版的书籍是对所有爬虫知识体系的全新升级。
没有基础可以学吗?
有朋友也可能会问,没有爬虫或者 Python 基础可以学吗?
答案是:可以,本书就是专为零爬虫基础的朋友准备的,本书从最基础的环境配置、基础知识的讲解开始,循序渐进地对爬虫的各个知识点进行介绍,所以完全不用担心没有爬虫基础学不会的问题。如果没有 Python 基础,那也没关系(当然有会更好),书中也会提及 Python 环境的配置并附上一些 Python 入门学习资料(链接),同时也会通过各个 Python 代码片段来进行讲解,很多案例也很简单易懂,学爬虫的时候 Python 也就会逐渐掌握了。
大咖推荐
这本书同时还获得了 Python 之父的推荐(没错就是 Python 的创始人,Guido van Rossum)。另外我还有幸获得了微软亚洲互联网工程院副院长曾文峰、知名爬虫专家梁斌penny、中国人民大学高瓴人工智能学院长聘副教授宋睿华的推荐。
下面是推荐语的内容:

章节介绍
为了让大家更直接地了解到全书的内容,这里就直接放目录了:


没错!全书一共 900 多页,有4.3 厘米厚,定价是 139.8 元。
有没有电子版?
看到这里,大家可能也会问了,有没有电子版呢?可能有的朋友习惯用电子版书籍来学习,有的朋友可能在海外也不方便购买,所以想要电子版。
但还是很遗憾地说:没有电子版。
因为你知道的,如果出了电子版,那么马上就会有各种盗版袭来,网上也会造成各种恶意传播。
所以,为了保护版权,这本书是没有上电子版的。
购买链接
到哪里能够买到呢?
如果大家想直接购买的话,可以到京东购买,链接为:https://item.jd.com/13527222.html
现在 618 活动啦!从 6.17 晚上 8 点开始,图灵的很多书都是每满 100 减 50,另外还有满 400 减 40 的券,基本上 160 元就能买到 400 元的书了。
当然这本书也参与活动啦~

为了方便购买,我把这个链接转成了二维码,大家可以直接扫码购买:

送书活动
之前为了这个送书活动,我特意开发了一个系统,感觉用起来还不错。
大家想获取书籍的可以参与获得自己的参与码,然后可以让朋友帮忙助力增加人气值,最终人气值前 10 名即可获得 《Python3 网络爬虫开发实战(第二版)》签名书一本。
参与直接扫描下方二维码即可:

扫码之后可以显示个人的序列号和人气值,然后大家可以转发让大家助力即可。
另外每个人的助力页面最下方会有全局的人气值榜哈,大家就知道前几名有多少人气了~
活动截止时间是 2022 年 6 月 24 日 23:59,届时我会按照人气值榜前 10 名为准进行赠书哈。
P.S. 由于这个系统是我个人开发的,不能保证 100% 稳定,如果大家遇到问题,请随时添加我个人微信「CQCcqc」交流。
星球送书
另外除了上面这个活动,还有一个稳定获取签名版书籍的方法,就是加入我的个人知识星球,加入之后按照置顶公告登记地址即可,我会每周四安排发货的。
另外我的星球里面也会给大家分享一些个人感悟,给大家解答一些问题,具体可以见:我创办了一个知识星球
星球地址:

活动支持
在这里我需要特别感谢下「阿斯云」和「快代理」和「K哥爬虫」的大力支持!
阿斯云是一家专门做云服务器的厂商,提供高速、稳定、安全、弹性的 ADSL 拨号主机服务和云计算服务,也是我个人一直在用的拨号主机服务,稳定性一直不错,大家如果有拨号主机需求欢迎到阿斯云官网 https://www.asiyun.cn/ 选购。
快代理创立于 2013 年,专注代理服务器领域,服务了 2000+ 公司和 30000+ 开发者,为企业和开发者提供高品质的 HTTP/HTTPS/Socks 代理 IP 云服务,每天代理 IP 超 20万个,提供完备的 API 接口和 SDK,赋能于大规模数据采集,大家如有代理需求欢迎到快代理 https://www.kuaidaili.com/ 选购。
K哥爬虫是个很不错的爬虫领域公众号,为爬虫爱好者分享有深度的爬虫技术,尤其是逆向技术,强烈推荐大家关注下。