Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
另外,它还拥有高性能的数据解析功能、高性能的请求发送功能、高性能的持久化存储、全站数据爬取、中间件、分布式等。
1.Mac版本的安装
Mac版本的安装比较简单,直接在PyCharm或者其他编辑器终端直接输入
pip install scrapy
即可!
2.Windows版本的安装
1.安装wheel
直接打开PyCharm终端输入
pip install wheel
命令来安装wheel工具,这个wheel工具主要是为后面的第三步所服务的。
具体操作如下图所示:
2.下载twisted文件并执行相关操作
直接去twisted官网twisted官网下载twisted文件,进入官网后,可以按下键盘的ctrl+F搜索Twisted快速定位,具体如下图所示:
这里需要注意不同的python版本对应不同的whl文件,例如cp38则表示python3.8。
下载twisted完成后,需要进入下载目录,执行相关操作。
首先,你必须得找到你安装twisted的安装目录,我的Python版本是3.10,所以安装的是cp310版本,如下图所示:
进行该目录。执行命令
pip install path/twisted_iocpsupport-1.0.2-cp310-cp310-win_amd64.whl
命令。这里的path是你下载安装的路径,我的路径为D:\PyCharm\twisted
因此,我的执行命令为:
pip install D:\PyCharm\twisted/twisted_iocpsupport-1.0.2-cp310-cp310-win_amd64.whl
安装成功后的界面如下图所示:
这里我特别提醒:如果这一步安装报错,这里需要重新去官网下载另一版本的twisted版本即可,只有前两部安装成功才可以继续安装下面的模块。
3.安装pywin32
这一步十分简单,直接在终端输入命令
pip install pywin32
即可
这一步直接下载可能需要5-6分钟,这里我使用的是清华镜像源下载,这样10秒类就可以下载完成,具体命令如下所示:
pip install -i https:///simple pywin32
4.安装scrapy
最后一步与第三步类似,直接在终端输入如下命令安装即可
pip install scrapy
但是可能会有些费时间,这里我仍然建议使用清华镜像源下载,具体命令如下所示:
pip install -i https:///simple scrapy
5.安装结果验证
如果你安装要求一步步走来,最后一步得到验证便十分简单,只需要按下键盘的Win+R,输入cmd,打开命令行窗口,在里面直接输入scrapy即可检验安装是否成功!
具体如下图所示:
出现上述情况,即表示安装成功!