介绍一款好用又易学的爬虫工具：web scraper-天翼云

介绍一款好用又易学的爬虫工具：web scraper

2024-05-29 07:56:46 阅读次数：43

web scraper

简介：

Web Scraper分为chrome插件和云服务两种，云服务是收费的，chrome插件是免费的，这里说的就是chrome插件这种。
Web Scraper插件，可以让你以“所见即所得”的方式挑选要提取的网页数据，形成模版，以后可以随时执行该模版，并且执行结果可以导出成Csv格式。
web scraper 比较类似selenium和火车头浏览器，不过web scraper功能要少的多，不过更加小巧，学习成本更低

优点

抓取需要登录的数据较方便，因为这个插件是运行在浏览器上的。
只要抓取频率慢一点，被网站屏蔽的概率较小，也因为是浏览器的原因，这就像是真实的用户访问一样。
学习成本低

缺点

好像并不能做验证码识别
抓取效率较低，相对于爬虫程序来说，Web scraper没法大并发，快速切换IP等，所以大量级的数据抓取用Web Scrpaer不适合，慢慢抓大几千网页还是可以。
插件本身是不支持配置定时任务的，云服务提供了这种功能，不过是收费的，到是可以尝试使用Python驱动谷歌来进而来操作web scraper的定时

操作

安装

谷歌浏览器

打开google浏览器，进入应用
点击网上应用商店
输入框搜索web scraper，点击添加到chrome
安装完成

火狐浏览器

点击右上角的菜单按钮，然后点击进入web开发者
点击获取更多工具
在搜索框里输入web scraper进行搜索
点击添加到 Firefox

介绍一款好用又易学的爬虫工具：web scraper

使用说明

进入谷歌浏览器，按F12进入开发者模式
安装好web scraper插件之后呢，会在最后出现web scraper标示
点击进入web scraper
首先，我们点击create new sitemaps -->create sitemaps，来创建一个爬虫项目
输入爬虫名称和需要采集的url，点击创建项目
点击Add new selector创建一个选择器
配置相关参数
运行爬虫，查看数据

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

介绍一款好用又易学的爬虫工具：web scraper

介绍一款好用又易学的爬虫工具：web scraper

web scraper

简介：

优点

缺点

操作

安装

谷歌浏览器

火狐浏览器

使用说明

相关文章

Javaweb编程中的乱码问题

关于 JavaScript 事件循环 Event Loop 的一些理解

对称加密、非对称加密在https中的应用

路由实现原理

谷歌浏览器“你使用的是不受支持的命令行标志:--no-sandbox。这会带来稳定性和安全风险。”解决方法

浏览器的重排重绘

【http缓存】

前端怎么间接控制浏览器的缓存行为

网络爬虫入门及准备工作（爬虫及数据可视化）

探秘JavaScript事件传播机制：冒泡、捕获与目标阶段解析

作者介绍

最新文章

路由实现原理

谷歌浏览器“你使用的是不受支持的命令行标志:--no-sandbox。这会带来稳定性和安全风险。”解决方法

浏览器的重排重绘

javascript返回上一页面后自动重新刷新返回后的页面

js 监听H5页面的可见性变化

python爬虫 - 代理ip正确使用方法

热门文章

jspm 是浏览器包管理工具

Jsp上传组件Smartupload介绍

设置 chrome 无头浏览器

JSP AJAX之Form序列化登录体验

web安全入门-搜索引擎信息

AppScan绕过登录验证码深入扫描

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

python爬虫 - 代理ip正确使用方法

第6章 作业（346）【网络安全】

装饰器方式的添加路由

HTTP 协议

npm init vite@latest； 项目名字是abcde，选了vue-ts； cd abcde； npm install； npm run dev；浏览器访问，结果是空白的，这是怎么回事？

热销商品-爬虫销量信息

第6章作业（346）【网络安全】

npm init vite@latest；项目名字是abcde，选了vue-ts； cd abcde； npm install； npm run dev；浏览器访问，结果是空白的，这是怎么回事？