Gerapy分布式管理框架

Gerapy分布式管理框架

2023-06-16 06:05:27 阅读次数：113

1.Gerapy介绍:

Gerapy 是一款 分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发，Gerapy 可以帮助我们：

更方便地控制爬虫运行
更直观地查看爬虫状态
更实时地查看爬取结果
更简单地实现项目部署
更统一地实现主机管理

2.Gerapy的安装

1.执行如下命令，等待安装完毕

 pip3 install gerapy

Gerapy分布式管理框架

2.验证gerapy是否安装成功

在终端中执行： gerapy 会出现如下信息

3.Gerapy配置启动

1.新建一个项目

 gerapy init

执行完该命令之后会在当前目录下生成一个gerapy文件夹，进入该文件夹，会找到一个名为projects的文件夹。

Gerapy分布式管理框架

2.对数据库进行初始化(在gerapy目录中操作)，先切换到gerapy目录下，执行如下命令

 gerapy migrate

对数据库初始化之后会生成一个SQLite数据库，数据库保存主机配置信息和部署版本等。

Gerapy分布式管理框架

3.启动 gerapy服务

 gerapy runserver

此时启动gerapy服务的这台机器的8000端口上开启了Gerapy服务，在浏览器中输入 http://localhost:8000 就能进入Gerapy管理界面，在管理界面就可以进行主机管理和界面管理

Gerapy分布式管理框架

此时登录gerapy平台需要账号密码登录，这还需要如下设置。

gerapy createsuperuser

Gerapy分布式管理框架

Gerapy分布式管理框架

4.通过Gerapy配置管理scrapy项目

4.1配置主机

1.添加scrapyd主机

需要添加 IP、端口，以及名称，点击创建即可完成添加，点击返回即可看到当前添加的 Scrapyd 服务列表,创建成功后,可以在列表中查看已经添加的服务。

Gerapy分布式管理框架

Gerapy分布式管理框架

Gerapy分布式管理框架

2.执行爬虫,就点击调度.然后运行. (前提是: 我们配置的scrapyd中,已经发布了爬虫.)

Gerapy分布式管理框架

Gerapy分布式管理框架

Gerapy分布式管理框架

4.2 配置Projects

1.可以将scarpy项目直接放到 /gerapy/projects下.

Gerapy分布式管理框架

2.可以在gerapy后台看到有个项目

Gerapy分布式管理框架 3.点击部署按钮进行打包和部署，在右下角可以输入打包时的描述信息，类似于 Git 的 commit 信息，然后点击打包按钮，即可发现 Gerapy 会提示打包成功，同时在左侧显示打包的结果和打包名称。

Gerapy分布式管理框架

Gerapy分布式管理框架

4.选择一个站点，点击右侧部署，将该项目部署到该站点上

Gerapy分布式管理框架

5.成功部署之后会显示描述和部署时间

Gerapy分布式管理框架

6.来到clients界面，找到部署该项目的节点，点击调度，然后进行运行爬虫任务。

Gerapy分布式管理框架

Gerapy分布式管理框架

Gerapy分布式管理框架

Gerapy分布式管理框架

7.在该节点中的项目列表中找到项目，点击右侧run运行项目

Gerapy分布式管理框架

Gerapy 与 scrapyd 有什么关联吗?

我们仅仅使用scrapyd是可以调用scrapy进行爬虫. 只是需要使用命令行开启爬虫 curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名使用Greapy就是为了将使用命令行开启爬虫变成 “小手一点”. 在gerapy中配置了scrapyd后,不需要使用命令行,可以通过图形化界面直接开启爬虫.

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.csdn.net/weixin_44799217/article/details/122215752，作者：IT之一小佬，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

上一篇：Java面试之Mybatis框架4——Mybatis的分页

下一篇：Scrapyd部署Scrapy框架项目

作者介绍

天翼云小翼

天翼云用户

文章

32168

阅读量

4657509

最新文章

python socket编程实例代码（含服务端和客户端）

2025-01-06 08:37:58

ansible生产实践一二进制安装ansible

2024-10-25 07:08:21

[接口测试 - 基础篇] 03 unittest测试框架了解多少才够？

2024-09-25 10:15:15

python学习——编写web框架

2024-09-25 10:14:21

python学习——编写Web App骨架

2024-09-25 10:14:21

python爬虫：scrapy框架xpath和css选择器语法

2024-06-24 08:38:15

热门文章

Python编程：PyCharm对Python虚拟环境和第三方包管理实践

2023-02-22 09:24:05

Flask框架中虚拟环境的配置

2023-06-01 06:41:49

python中Flask框架介绍

2023-06-13 08:33:22

框架程序开发

2023-06-26 08:40:28

Git：Python代码开发到服务器上测试实践

2022-11-14 02:56:39

Python: PonyORM设计精巧的ORM框架

2022-11-09 02:01:06

热门标签

客户端 Java 服务器 java 实践基础知识框架数据库 python javascript 代码服务端 Spring 编程 mysql

相关产品

弹性云主机

随时自助获取、弹性伸缩的云服务器资源

天翼云电脑（公众版）

便捷、安全、高效的云电脑服务

对象存储

高品质、低成本的云上存储服务

云硬盘

为云上计算资源提供持久性块存储

随机文章

falcon 可靠高性能的构建大规模应用以及微服务的 python web 框架

Git：Python代码开发到服务器上测试实践

Flask框架中虚拟环境的配置

Pytest----Pytest自动化测试框架中文本测试的使用方法

Python的Flask框架接收前端传来的ajax的post类型的数据和get类型的数据

Django REST framework -9-登录验证JWT实践