被redis阻塞的碎片

çµç¿¼ä¿ • 4 年前 • 769 次点击

我用一只小蜘蛛做消费者,还有一个生产者不定期地生成网址并放到redis中,我的代码如下:

def start_requests(self): 
    for msg in self.redis_sub.listen():
        data = json.loads(msg['data'].decode('utf-8'))
        id = data['id']
        styleUrl = data['styleUrl']
        pageCount = data['pageCount']
        self.obi.public(json.dumps({'id': id, 'isSynchronized': 1}))
        yield SplashRequest(url=styleUrl, callback=self.specHome_parse,
                                args={'wait': 5, 'timeout': 60, 'images': 0},
                                meta={'pageCount': pageCount, 'id': id, 'dont_redirect': True})

代码可以正常地接收url,但是当它在第二行被阻塞以等待url时,all-scrapy暂停,包括之前产生的请求。我想它应该继续运行旧的重新队列,什么原因和如何解决它?请帮帮我

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/50018

769 次点击

文章 [ 2 ] | 最新文章 4 年前

• 1 楼

çµç¿¼ä¿ 5 年前

我不熟悉Scrapy Redis,我只知道它通过lpush url使用Redis,但是我必须在Redis中使用publish/subscription,所以我采用了这样一种方法:

    def start_requests(self):
    while True:
        try:
            msg = self.redis_sub.parse_response(block=False, timeout=5)
            if msg[0] != b'message':
                continue
            data = json.loads(msg[2].decode('utf-8'))
            id = data['id']
            styleUrl = data['styleUrl']
            pageCount = data['pageCount']
            self.obi.public(json.dumps({'id': id, 'isSynchronized': 1}))
            yield SplashRequest(url=styleUrl, callback=self.specHome_parse,
                                args={'wait': 5, 'timeout': 60, 'images': 0},
                                meta={'pageCount': pageCount, 'id': id, 'dont_retry': True})
        except Exception as e:
            yield SplashRequest()
            print(e)

事实证明是可行的。

• 2 楼

Gallaecio 5 年前

使用 Scrapy-Redis 而不是重新发明轮子。见 Feeding a Spider from Redis .

登录后回复