Scrapyd部署Scrapy框架项目-天翼云

Scrapyd部署Scrapy框架项目

2023-06-16 06:09:36 阅读次数：87

1. scrapyd的介绍

scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API（即：post请求的webapi）来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们。

2. scrapyd的安装

scrapyd服务: pip install scrapyd
scrapyd客户端: pip install scrapyd-client

Scrapyd部署Scrapy框架项目

3. 启动scrapyd服务

在scrapy项目路径下 启动scrapyd的命令：sudo scrapyd 或 scrapyd
启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看scrapyd的监控界面

Scrapyd部署Scrapy框架项目

点击job查看任务监控界面

Scrapyd部署Scrapy框架项目

4. scrapy项目部署

4.1 配置需要部署的项目

编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中，就配置该项目的该文件)

 [deploy:部署名(部署名可以自行定义)]
 url = http://localhost:6800/
 project = 项目名(创建爬虫项目时使用的名称)

Scrapyd部署Scrapy框架项目

4.2 部署项目到scrapyd

同样在scrapy项目路径下执行：

scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称

Scrapyd部署Scrapy框架项目

部署成功之后就可以看到部署的项目:

Scrapyd部署Scrapy框架项目

4.3 管理scrapy项目

启动项目：

curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

Scrapyd部署Scrapy框架项目

关闭爬虫：

curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid

Scrapyd部署Scrapy框架项目

注意：curl是命令行工具，如果没有则需要额外安装

4.4 使用requests模块控制scrapy项目

import requests

# 启动爬虫
url = 'http://localhost:6800/schedule.json'
data = {
    'project': 项目名,
    'spider': 爬虫名,
}
resp = requests.post(url, data=data)

# 停止爬虫
url = 'http://localhost:6800/cancel.json'
data = {
    'project': 项目名,
    'job': 启动爬虫时返回的jobid,
}
resp = requests.post(url, data=data)

5. scrapyd的其他webapi

curl http://localhost:6800/listprojects.json （列出项目）
curl http://localhost:6800/listspiders.json?project=myspider （列出爬虫）
curl http://localhost:6800/listjobs.json?project=myspider （列出job）
curl http://localhost:6800/cancel.json -d project=myspider -d job=tencent （终止爬虫，该功能会有延时或不能终止爬虫的情况，此时可用kill -9杀进程的方式中止）
scrapyd还有其他webapi，百度搜索了解更多

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Scrapyd部署Scrapy框架项目

Scrapyd部署Scrapy框架项目

1. scrapyd的介绍

2. scrapyd的安装

3. 启动scrapyd服务

4. scrapy项目部署

4.1 配置需要部署的项目

4.2 部署项目到scrapyd

4.3 管理scrapy项目

4.4 使用requests模块控制scrapy项目

5. scrapyd的其他webapi

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

python socket编程实例代码（含服务端和客户端）

ansible生产实践一 二进制安装ansible

[接口测试 - 基础篇] 03 unittest测试框架了解多少才够？

python学习——编写web框架

python学习——编写Web App骨架

python爬虫：scrapy框架xpath和css选择器语法

热门文章

Python编程：PyCharm对Python虚拟环境和第三方包管理实践

Flask框架中虚拟环境的配置

python中Flask框架介绍

框架程序开发

Git：Python代码开发到服务器上测试实践

Python: PonyORM设计精巧的ORM框架

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Python|MitmProxy代理抓包工具实践难点

Pytest自动化测试框架----如何建立bash命令行自动补全

Python的Flask框架接收前端传来的ajax的post类型的数据和get类型的数据

python学习——编写Web App骨架

Python: PonyORM设计精巧的ORM框架

Flask框架中虚拟环境的配置

ansible生产实践一二进制安装ansible