Python爬虫：python2使用scrapy输出unicode乱码-天翼云

Python爬虫：python2使用scrapy输出unicode乱码

2023-03-16 07:44:37 阅读次数：148

无力吐槽的python2，对中文太不友好了，不过在早期项目中还是需要用到

没办法，还是需要解决

我编写scrapy爬虫的一般思路：

创建spider文件和类
编写parse解析函数，抓取测试，将有用信息输出到控制台
在数据库中创建数据表
编写item
编写model（配合pipline将item写入数据库）
编写pipline
运行爬虫项目，测试保存的数据正确性

在第2步抓取测试的时候，我并没有创建数据库（因为我感觉在数据库中创建数据表比较麻烦，考虑的因素比较多），并不能保存数据到数据库，直接输出到控制台又不能很好地看到数据的整体效果

一个解决办法就是利用scrapy提供的数据导出中间件，将抓取的数据导出到json或者scv文件中

$ scrapy crawl spider_name -o person.json

额，python2。。。我的天，抓取的数据大概是这样的

[
{"name": "\u5f20\u4e39"},
{"name": "\u77bf\u6653\u94e7"},
{"name": "\u95eb\u5927\u9e4f"},
{"name": "\u9c8d\u6d77\u660e"},
{"name": "\u9648\u53cb\u658c"},
{"name": "\u9648\u5efa\u5cf0"}
]

好吧，英文能看懂，中文反而看不懂了，简直不能忍

接下来对它做点什么

1、找到scrapy默认配置文件

# scrapy.settings.default_settings

FEED_EXPORTERS_BASE = {
    'json': 'scrapy.exporters.JsonItemExporter',
    'jsonlines': 'scrapy.exporters.JsonLinesItemExporter',
    'jl': 'scrapy.exporters.JsonLinesItemExporter',
    'csv': 'scrapy.exporters.CsvItemExporter',
    'xml': 'scrapy.exporters.XmlItemExporter',
    'marshal': 'scrapy.exporters.MarshalItemExporter',
    'pickle': 'scrapy.exporters.PickleItemExporter',
}

2、看到json的导出类，按照路径找到这个类

# scrapy.exporters.JsonItemExporter

class JsonItemExporter(BaseItemExporter):

    def __init__(self, file, **kwargs):
        self._configure(kwargs, dont_fail=True)
        self.file = file
        self.encoder = ScrapyJSONEncoder(**kwargs)
        self.first_item = True

    def start_exporting(self):
        self.file.write(b"[\n")

    def finish_exporting(self):
        self.file.write(b"\n]")

    def export_item(self, item):
        if self.first_item:
            self.first_item = False
        else:
            self.file.write(b',\n')
        itemdict = dict(self._get_serialized_fields(item))
        self.file.write(to_bytes(self.encoder.encode(itemdict)))

看到最下面一句，写入文件，后面还对其进行了编码，我们就在这里做工作

3、改写JsonItemExporter

方法1：

import json

class MyJsonItemExporter(JsonItemExporter):
    def export_item(self, item):
        if self.first_item:
            self.first_item = False
        else:
            self.file.write(b',\n')
        itemdict = dict(self._get_serialized_fields(item))
        self.file.write(json.dumps(itemdict, ensure_ascii=False))

继承原有的JsonItemExporter类，将最下面的写入文件代码修改即可，这种方式比较直观，也比较简单

方式2：

我们注意到JsonItemExporter中的初始化函数有一个属性

self.encoder = ScrapyJSONEncoder(**kwargs)

下面写入的时候也用到了，顺藤摸瓜，依次找到下面两个类，部分代码省略

class ScrapyJSONEncoder(json.JSONEncoder):
    pass

class JSONEncoder(object):

    def __init__(self, skipkeys=False, ensure_ascii=True,
            check_circular=True, allow_nan=True, sort_keys=False,
            indent=None, separators=None, encoding='utf-8', default=None):

这样看来，我们也可以这么改写

class MyJsonItemExporter(JsonItemExporter):
    def __init__(self, file, **kwargs):
        super(MyJsonItemExporter, self).__init__(
            file, ensure_ascii=False, **kwargs
        )

仅仅只是添加了ensure_ascii=False，这样看起来，逼格就高了许多

4、使用MyJsonItemExporter

可以在爬虫中单独设置，也可以设置在全局settings里边

custom_settings = {
    "FEED_EXPORTERS_BASE":{
            "json": "MyJsonItemExporter"
    }
}

再次运行爬虫，这次我能看懂中文了

[
{"name": "张丹"},
{"name": "闫大鹏"},
{"name": "瞿晓铧"},
{"name": "鲍海明"},
{"name": "陈友斌"},
{"name": "陈建峰"}
]

参考
scrapy避免直接输出unicode

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python爬虫：python2使用scrapy输出unicode乱码

Python爬虫：python2使用scrapy输出unicode乱码

相关文章

文心一言 VS 讯飞星火 VS chatgpt （275）-- 算法导论20.3 2题

nacos配置mysql数据库和鉴权

从零做软件开发项目系列之三——系统设计

java使用JDBC方式操作mysql数据库示例

Java的几种常用包

Javaweb编程中的乱码问题

Java获取控制台输出信息(终极版)

Java获取控制台输出信息

java.lang.IllegalStateException: Duplicate key异常解决

多并发的高实时的订单查询的性能问题(进程内共享数据)

作者介绍

最新文章

从零做软件开发项目系列之三——系统设计

Javaweb编程中的乱码问题

Java的几种常用包

Java获取控制台输出信息

Java获取控制台输出信息(终极版)

多并发的高实时的订单查询的性能问题(进程内共享数据)

热门文章

MySQL 5.7 JSON函数学习

Python数据库测试实战教程

java构建一个格式稍微复杂点的JSON对象附查看json格式的小工具

Python|斐波那契数列

游戏编程之十一 图像页CPICPAGE介绍

SpringMVC的JSON处理及FastJSON的整合使用(七)

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

C++从入门到精通——静态成员以及静态成员函数

C/C++ 异或加密实现代码

不错的PHP扩展

Python 的函数式编程与应用场景

利用Java构建高可用的实时数据监控系统

使用Java和Neo4j构建图数据库应用

游戏编程之十一图像页CPICPAGE介绍