Python自动化小技巧04——一行代码解决csv文件乱码问题-天翼云

Python自动化小技巧04——一行代码解决csv文件乱码问题

2024-10-17 09:59:41 阅读次数：30

博主最近搞了点自然语言处理还有爬虫的东西，所以与文字大量打交道。发现有时候下载下来的中文，或者是爬虫下来的中文资料，存为csv文件的时候存在乱码的问题。

比如我下载的一个中文文本分类的数据集，打开居然长这个样子：

Python自动化小技巧04——一行代码解决csv文件乱码问题

emmmm，看着就头大，我研究了一下乱码的原因，主要是excel打开csv文件的时候使用的编码方式不对。如果你用记事本打开这个文件就会发现是正常的。

Python自动化小技巧04——一行代码解决csv文件乱码问题

我们可以看到右下角的编码方式是“utf-8”，所以有个使用这个编码方式打开csv文件才行。

网上给出了很多解决方法，但是都不是很好用啊，比如修改excel的设置，新建excel文件然后导入数据源换编码......

其实Python就一行代码就可以解决这个事情，用pandas打开csv文件，使用对应的编码方式，然后再存为excel文件就行。

import pandas as pd
pd.read_csv('online_shopping_10_cats.csv',encoding='utf-8').to_excel('十分类文本.xlsx',index=False)

结果如下：

Python自动化小技巧04——一行代码解决csv文件乱码问题

转码大功告成!

其实不止csv文件，理论上乱码都是打开的编码方式不对造成的，只需要你找到原来的编码方式，然后存为现在要使用软件的打开的编码方式就可以解决乱码问题。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python自动化小技巧04——一行代码解决csv文件乱码问题

Python自动化小技巧04——一行代码解决csv文件乱码问题

相关文章

【30天玩转python】自动化与脚本编写

python打印宝塔代码

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

python性能测试之pyperformance

IronPython 与 c# 交互之导入Python模块的两种方法

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

【30天玩转python】自动化与脚本编写

python打印宝塔代码

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

热门文章

Linux实用命令authconfig和authconfig-tui（备忘）

Python高级变量类型

python学习——面向对象编程

一个简单的http server，处理get和post请求，Python实现

Python数据库测试实战教程

Python编程：生成器yield与yield from区别简单理解

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Python数据类型 ——— 元组

Python编程：10个面试常问的问题

使用Python face_recognition 人脸识别 - 4 标记出人脸属性

使用Python统计小说语言描写的字数

Python OpenCv学习基础知识三

Python面向对象编程