Python自动化小技巧09——获取文件编码方式-天翼云

Python自动化小技巧09——获取文件编码方式

2024-10-17 09:59:41 阅读次数：23

有时候我们打开csv文件会发现乱码：

Python自动化小技巧09——获取文件编码方式

这是因为excel打开csv文件的时候用的编码方式不对，如果我们使用记事本打开csv文件会看到是正常的，而且下面的角标会告诉我们编码方式：

Python自动化小技巧09——获取文件编码方式

这个文件的编码是uft-8。

当然还有很多别的编码方式比如‘gbk’，‘ASCII ’等等，如果文件的来源不统一，并且数量很多的时候我们不能很方便用记事本去一一查看，就应该使用Python来进行编码方式的获取。

代码演示

本次主要依赖这个包：chardet，它可以探测文件的编码方法，并且给出把握概率。

这里打开3个文件，为了区别，我使用了csv，xlsx，txt三种不同的文件，然后获取他们的编码方式。

#查看编码
import chardet
with open ('waimai_10k.csv','rb') as f:
    f1=f.read()
print(chardet.detect(f1))

with open ('stopwords.txt','rb') as f:
    f3=f.read()
print(chardet.detect(f3)['encoding'])

with open ('外卖.xlsx','rb') as f:
    f2=f.read()
print(chardet.detect(f2).get('encoding'))

运行结果

Python自动化小技巧09——获取文件编码方式

可以看到在文件read()之后使用chardet.detect()函数会返回一个字典，给出了文件的编码方式和置信水平。

我上面的两个文件都是uft-8编码，第三个文件是none，应该是这个Python自带的读取方式打不开excel文件.....所以就读不出来编码。

目前来看chardet.detect()应该堆文本类型文件都能使用。

批量处理文件的编码方式，可以使用os包返回目录下的所有文件，然后再去循环一个个读取编码方式。

之后就一一对应，可以使用正确的编码方式进行文件读取啦。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Python自动化小技巧09——获取文件编码方式

Python自动化小技巧09——获取文件编码方式

代码演示

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

python简单介绍及基础知识（一）

视频 | Python测试开发之调试print代码实例

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

热门文章

Linux实用命令authconfig和authconfig-tui（备忘）

Python高级变量类型

python学习——面向对象编程

一个简单的http server，处理get和post请求，Python实现

Python数据库测试实战教程

Python编程：生成器yield与yield from区别简单理解

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

1行Python代码，把Excel转成PDF，python-office功能更新~

python编程入门（适合初学者）

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

Python中基本数据类型----数字类型

Python 两个list获取交集，并集，差集的方法（合并、交叉）

世界杯的呈现：用简单的python代码画出