安装
使用
创建新项目
创造一个项目:
1 | scrapy startproject tutorial |
目录层级结构如图:
1 | tutorial |
定义抓取项
定义我们要抓取的内容(items.py):
1 | import scrapy |
创建Spider
创建命令:
1 | scrapy genspider -t basic jianshu jianshu.com |
修改Spider内容为:
1 | import scrapy |
保存数据
1 | scrapy crawl JianShuSpider -o items.json -t json |
错误处理
[scrapy.core.engine] DEBUG: Crawled (403) <GET http://www.jianshu.com/> (referer: None)
修改DOWNLOADER_MIDDLEWARES配置:
1 | DOWNLOADER_MIDDLEWARES = { |
[scrapy.core.scraper] ERROR: Spider error processing <GET http://www.jianshu.com/> (referer: None)
修改DOWNLOADER_MIDDLEWARES配置:
1 | DOWNLOADER_MIDDLEWARES = { |
修改middlewares.py配置:
1 | from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware |
参考资料
西刺免费代理IP
scrapy代理、UA配置
Scrapy环境搭建
数据抓取框架
Scrapy下载中间件
scrapy自定义User-Agent
如何让你的scrapy爬虫不再被ban
CnblogsSpider