原文:http://mp.weixin.qq.com/s/anGz701dwQEwqopj3VJngw
小编今天要开启送书模式了,是的,就是这本《用Python写网络爬虫》,这本书全面介绍了爬虫的各种技巧,包含的内容有:
通过跟踪链接来爬取网站;
使用lxml从页面中抽取数据;
构建线程爬虫来并行爬取页面;
将下载的内容进行缓存,以降低带宽消耗;
解析依赖于JavaScript的网站;
与表单和会话进行交互;
解决受保护页面的验证码问题;
对AJAX调用进行逆向工程;
使用Scrapy创建高级爬虫。
本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书需要读者具有一定的Python编程经验,当然不需要多熟练,如果有入门级的水平就足够了。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。小编也是通过这本书入门爬虫的。
本书目录:
第1章 网络爬虫简介
第2章 数据抓取
第3章 下载缓存
第4章 并发下载
第5章 动态内容
第6章 表单交互
第7章 验证码处理
第8章 Scrapy
第9章 总结
活动的规则很简单,只需要关注公众号 Python网络爬虫与数据挖掘 ID: datanami并在此文留言就有机会中奖,为了提高你的中奖概率,你可以转发到朋友圈或者微信群里面,不过需要你把截图发送到公众号后台,以方便我进行统计计算。这次活动总共会送出5本书,包邮的!你只需要告诉我收获地址就可以
活动的截止时间是9月18日。