Py学习  »  Python

Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

梦想橡皮擦 • 3 年前 • 528 次点击  

写在前面

最近迷上了读书,先定个flag,每年阅读50本书。

读书,那必然要读好书,好书哪里找,豆瓣少不了,但是要不断的翻网页,这个事情感觉不是爬虫程序员能干出来的,作为梦想橡皮擦这样子的大佬,自然也不能做这么基础的翻网页动作,所以,必须写爬虫程序。

今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn=index-sorttags-all 里面涉及的所有标签

我将通过两篇文章来完成这个案例,第一篇当然是基本环境的构建和认识,只有做好这一步,后面的代码实现起来才会更加清晰。

这两篇博客核心用到的都是 celery 一个异步任务队列/作业队列,它是基于分布式消息传递的。

github地址: https://github.com/celery/celery

celery是什么?

celery是通过python语言实现的分布式队列服务,除了支持即时任务,还支持定时任务。

写到这里就不得不说明一下,这个库在真实的使用中存在不少的问题,而且国内使用的比较少(可能我见到听说的比较少),最多、最常见的就是用来做异步邮件,处理个定时任务。当然对于学习来说,尤其是学习分布式爬虫来说,还是非常有必要了解一下的。

对于celery的学习,首先要做的是知道它都在哪些场景下应用,然后在认识它其中的各个角色,最后搭建起基于celery的爬虫就可以啦。

本篇博客,我将使用celery作为分布式任务调度工具,主要实现把要爬取的任务发送给分布式的各结点进行执行,并且保证URL不会被重复抓取。

学习任何模块都是离不开手册的: http://docs.jinkan.org/docs/

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/72269
 
528 次点击