在scrapy文件中的custom_settings
写入JOBDIR
即可,比如:
'JOBDIR': '../jobs/baidu_news',
baidu_news
这个位置就是当程序停止爬虫的时候当前的运行状态就会记录在这个文件中,当再次爬取时会接着保存的状态进行爬取
案例
class BaiduSpiderSpider(CrawlSpider):
"""Get news from
"""
name = "baidu_spider"
allowed_domains = [""]
stopwords = []
custom_settings = {
'HTTPERROR_ALLOWED_CODES': [302, 301],
'JOBDIR': '../jobs/baidu_news',
}