使用scrapy抓取代理ip实例
准备
如果你尚未安装scrapy,或者不知道怎么创建爬虫项目,请参考 python scrapy框架 安装一节。
我们创建项目collectips;新建爬虫xicidaili。
主要代码解析
初始化
1 | name = 'xicidaili' |
解析
1 | def parse(self, response): |
检验代理ip可用性
我们需要对抓取的代理ip的可用性进行验证,方式如下:
1 | def is_valid_ip(self, proxy): |
修改配置
- 修改下载延迟
1 | # Configure a delay for requests for the same website (default: 0) |
- 新增下载中间件
1 |
|
- 代理IP
1 | IP_POOL = [ |
- USER_AGENT设置
1 | USER_AGENT_LIST = [ |
gogogo西刺代理
运行:
1 | scrapy crawl xicidaili -o my_ip.json |
抓取数据示例
1 | { |
引用
源码:collectips