安装redis
下载
1 | wget http://download.redis.io/releases/redis-stable.tar.gz |
安装
1 | tar -zxvf redis-stable.tar.gz |
运行
1 | ./src/redis-server |
安装scrapy-redis
1 | pip install scrapy-redis |
新建分布式爬虫
新建项目
1 | scrapy startproject distributedspider |
新建redis crawler(mycrawler_redis.py)
1 | import redis |
新建redis spider(myspider_redis.py)
1 | from scrapy_redis.spiders import RedisSpider |
修改配置(settings.pyc)
配置redis地址,多机部署时队列读取地址。
1 |
|
运行
启动redis
运行spider1
运行spider2
添加start_urls
方式一(手动添加):
方式二(执行脚本添加):
1 | scrapy crawl mycrawler_redis |
结论
可以看到spider1、spider2在并行处理请求