Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

写在前面

最近迷上了读书，先定个flag，每年阅读50本书。

读书，那必然要读好书，好书哪里找，豆瓣少不了，但是要不断的翻网页，这个事情感觉不是爬虫程序员能干出来的，作为梦想橡皮擦这样子的大佬，自然也不能做这么基础的翻网页动作，所以，必须写爬虫程序。

今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn=index-sorttags-all 里面涉及的所有标签

我将通过两篇文章来完成这个案例，第一篇当然是基本环境的构建和认识，只有做好这一步，后面的代码实现起来才会更加清晰。

这两篇博客核心用到的都是 celery 一个异步任务队列/作业队列，它是基于分布式消息传递的。

celery是通过python语言实现的分布式队列服务，除了支持即时任务，还支持定时任务。

写到这里就不得不说明一下，这个库在真实的使用中存在不少的问题，而且国内使用的比较少（可能我见到听说的比较少），最多、最常见的就是用来做异步邮件，处理个定时任务。当然对于学习来说，尤其是学习分布式爬虫来说，还是非常有必要了解一下的。

对于celery的学习，首先要做的是知道它都在哪些场景下应用，然后在认识它其中的各个角色，最后搭建起基于celery的爬虫就可以啦。

本篇博客，我将使用celery作为分布式任务调度工具，主要实现把要爬取的任务发送给分布式的各结点进行执行，并且保证URL不会被重复抓取。

学习任何模块都是离不开手册的： http://docs.jinkan.org/docs/