社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Redis

被redis阻塞的碎片

çµç¿¼ä¿ • 4 年前 • 769 次点击  

我用一只小蜘蛛做消费者,还有一个生产者不定期地生成网址并放到redis中,我的代码如下:

def start_requests(self): 
    for msg in self.redis_sub.listen():
        data = json.loads(msg['data'].decode('utf-8'))
        id = data['id']
        styleUrl = data['styleUrl']
        pageCount = data['pageCount']
        self.obi.public(json.dumps({'id': id, 'isSynchronized': 1}))
        yield SplashRequest(url=styleUrl, callback=self.specHome_parse,
                                args={'wait': 5, 'timeout': 60, 'images': 0},
                                meta={'pageCount': pageCount, 'id': id, 'dont_redirect': True})

代码可以正常地接收url,但是当它在第二行被阻塞以等待url时,all-scrapy暂停,包括之前产生的请求。我想它应该继续运行旧的重新队列,什么原因和如何解决它?请帮帮我

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/50018
 
769 次点击  
文章 [ 2 ]  |  最新文章 4 年前
灵翼ä¿
Reply   •   1 楼
çµç¿¼ä¿    5 年前

我不熟悉Scrapy Redis,我只知道它通过lpush url使用Redis,但是我必须在Redis中使用publish/subscription,所以我采用了这样一种方法:

    def start_requests(self):
    while True:
        try:
            msg = self.redis_sub.parse_response(block=False, timeout=5)
            if msg[0] != b'message':
                continue
            data = json.loads(msg[2].decode('utf-8'))
            id = data['id']
            styleUrl = data['styleUrl']
            pageCount = data['pageCount']
            self.obi.public(json.dumps({'id': id, 'isSynchronized': 1}))
            yield SplashRequest(url=styleUrl, callback=self.specHome_parse,
                                args={'wait': 5, 'timeout': 60, 'images': 0},
                                meta={'pageCount': pageCount, 'id': id, 'dont_retry': True})
        except Exception as e:
            yield SplashRequest()
            print(e)

事实证明是可行的。

Gallaecio
Reply   •   2 楼
Gallaecio    5 年前

使用 Scrapy-Redis 而不是重新发明轮子。见 Feeding a Spider from Redis .