用 Python 处理 CSV 和 Excel 文件-天翼云

用 Python 处理 CSV 和 Excel 文件

2025-03-10 09:50:08 阅读次数：7

1. CSV 文件概述和处理方法

1.1 CSV 文件格式的基本介绍

CSV（Comma-Separated Values，逗号分隔值）文件是一种简单的文本文件格式，用于存储表格数据，其中每一行代表一条记录，行中的每个字段通过逗号分隔。CSV 文件通常用于数据交换和存储。它的优点是简单、轻量、易于读取和写入，缺点是无法存储复杂的格式和公式。

例如，一个典型的 CSV 文件内容如下：

Name,Age,Gender
Alice,25,Female
Bob,30,Male
Charlie,35,Male

1.2 使用 Python 内置 `csv` 模块处理 CSV 文件

Python 提供了内置的 csv 模块，用于读取和写入 CSV 文件。它提供了简单的接口，可以直接与文件进行交互。

读取 CSV 文件

import csv

# 打开 CSV 文件
with open('example.csv', mode='r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

写入 CSV 文件

import csv

# 数据准备
data = [['Name', 'Age', 'Gender'], ['Alice', 25, 'Female'], ['Bob', 30, 'Male']]

# 写入 CSV 文件
with open('output.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

使用 `DictReader` 和 `DictWriter`

对于键值对的操作，可以使用 DictReader 和 DictWriter，它们允许以字典的形式读取和写入数据。

import csv

# 读取 CSV 文件为字典
with open('example.csv', mode='r') as file:
    reader = csv.DictReader(file)
    for row in reader:
        print(row)

# 写入 CSV 文件为字典
data = [{'Name': 'Alice', 'Age': 25, 'Gender': 'Female'}, {'Name': 'Bob', 'Age': 30, 'Gender': 'Male'}]
with open('output.csv', mode='w', newline='') as file:
    fieldnames = ['Name', 'Age', 'Gender']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data)

1.3 使用 `pandas` 处理 CSV 文件

pandas 是一个强大的数据分析库，提供了更高级和方便的 CSV 文件处理功能。它使用 read_csv 和 to_csv 方法，可以直接将 CSV 文件读取为 DataFrame 数据结构，并支持复杂的数据操作。

读取 CSV 文件

import pandas as pd

# 读取 CSV 文件为 DataFrame
df = pd.read_csv('example.csv')
print(df)

写入 CSV 文件

import pandas as pd

# 数据准备
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30], 'Gender': ['Female', 'Male']}
df = pd.DataFrame(data)

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

数据过滤和操作

# 过滤年龄大于 30 的行
filtered_df = df[df['Age'] > 30]
print(filtered_df)

# 添加新列
df['Country'] = ['USA', 'UK']
print(df)

2. Excel 文件概述和处理方法

2.1 Excel 文件格式的基本介绍

Excel 文件是一种用于电子表格的文件格式，支持表格数据、公式、图表和其他格式化内容。Excel 文件有两种常见的格式：

.xls：Excel 97-2003 的文件格式，基于二进制格式。
.xlsx：Excel 2007 及以后的版本使用的 XML 基础格式，支持更多功能。

2.2 使用 `openpyxl` 处理 Excel 文件

openpyxl 是 Python 用于读取和写入 Excel .xlsx 文件的第三方库。

读取 Excel 文件

from openpyxl import load_workbook

# 加载 Excel 文件
wb = load_workbook('example.xlsx')
sheet = wb.active

# 读取单元格数据
for row in sheet.iter_rows(values_only=True):
    print(row)

写入 Excel 文件

from openpyxl import Workbook

# 创建一个新的 Excel 文件
wb = Workbook()
sheet = wb.active

# 写入数据
sheet['A1'] = 'Name'
sheet['A2'] = 'Alice'
sheet['B1'] = 'Age'
sheet['B2'] = 25

# 保存 Excel 文件
wb.save('output.xlsx')

设置单元格样式

from openpyxl.styles import Font, Color, Alignment

# 设置字体和对齐
sheet['A1'].font = Font(bold=True, color="FF0000")
sheet['A1'].alignment = Alignment(horizontal="center")

wb.save('styled_output.xlsx')

2.3 使用 `xlrd` 和 `xlwt` 处理 Excel 文件

xlrd 用于读取 .xls 文件，而 xlwt 用于写入 .xls 文件。

读取 Excel 文件（`xlrd`）

import xlrd

# 打开 Excel 文件
workbook = xlrd.open_workbook('example.xls')
sheet = workbook.sheet_by_index(0)

# 读取数据
for row in range(sheet.nrows):
    print(sheet.row_values(row))

写入 Excel 文件（`xlwt`）

import xlwt

# 创建 Excel 文件
workbook = xlwt.Workbook()
sheet = workbook.add_sheet('Sheet1')

# 写入数据
sheet.write(0, 0, 'Name')
sheet.write(0, 1, 'Age')
sheet.write(1, 0, 'Alice')
sheet.write(1, 1, 25)

# 保存 Excel 文件
workbook.save('output.xls')

2.4 使用 `pandas` 处理 Excel 文件

pandas 同样提供了强大的 Excel 文件处理功能，通过 read_excel 和 to_excel 方法，可以方便地读取和写入 Excel 文件。

读取 Excel 文件

import pandas as pd

# 读取 Excel 文件为 DataFrame
df = pd.read_excel('example.xlsx')
print(df)

写入 Excel 文件

import pandas as pd

# 数据准备
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30], 'Gender': ['Female', 'Male']}
df = pd.DataFrame(data)

# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)

3. CSV 与 Excel 文件的比较与选择

3.1 CSV 与 Excel 的异同

CSV 文件：简单的文本文件，易于存储和传输，但无法保存复杂的格式、公式和图表。适用于存储纯数据。
Excel 文件：支持丰富的格式、公式、图表等功能。适用于需要复杂格式和计算的场景。

3.2 选择合适的文件格式

数据量较小且不需要复杂格式：选择 CSV 格式。
需要支持公式、图表或复杂格式：选择 Excel 格式。

3.3 优化大数据量文件的读取与写入

使用 pandas 的 chunksize 参数分批读取大文件。
使用 openpyxl 时，避免一次性加载整个工作簿，分批加载和保存数据。

4. 性能优化和进阶技巧

4.1 使用 `pandas` 优化大文件的读取与处理

对于大数据量的文件，pandas 提供了 chunksize 参数，允许按块读取 CSV 或 Excel 文件，从而避免一次性将所有数据加载到内存中。

import pandas as pd

chunk_size = 10000
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)
for chunk in chunks:
    # 处理每一块数据
    print(chunk.head())

4.2 异常数据的清洗与处理

处理 CSV 或 Excel 文件时，常常会遇到缺失值、重复数据等问题。使用 pandas 可以方便地进行数据清洗：

# 去除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna(0, inplace=True)

# 去除重复数据
df.drop_duplicates(inplace=True)

4.3 批量处理 CSV 和 Excel 文件

对于多个文件的处理，可以使用 os 模块遍历文件夹，批量读取和写入文件。

import os
import pandas as pd

for file in os.listdir('csv_files'):
    if file.endswith('.csv'):
        df = pd.read_csv(f'csv_files/{file}')
        # 处理文件
        df.to_csv(f'processed_{file}', index=False)

5. 常见问题与错误处理

5.1 处理文件编码问题

在处理 CSV 文件时，可能会遇到编码问题。可以使用 encoding 参数指定文件的编码格式。

df = pd.read_csv('file.csv', encoding='utf-8')

5.2 数据缺失值的处理

缺失值处理是数据分析中的常见问题，可以通过 pandas 提供的 dropna、fillna 方法进行处理。

5.3 Excel 文件读写中的常见错误

在使用 openpyxl 或 pandas 处理 Excel 文件时，常见的错误包括文件格式不兼容、文件损坏等。需要确保文件路径正确，并使用适当的库来处理文件格式。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

用 Python 处理 CSV 和 Excel 文件

用 Python 处理 CSV 和 Excel 文件

1. CSV 文件概述和处理方法

1.1 CSV 文件格式的基本介绍

1.2 使用 Python 内置 csv 模块处理 CSV 文件

读取 CSV 文件

写入 CSV 文件

使用 DictReader 和 DictWriter

1.3 使用 pandas 处理 CSV 文件

读取 CSV 文件

写入 CSV 文件

数据过滤和操作

2. Excel 文件概述和处理方法

2.1 Excel 文件格式的基本介绍

2.2 使用 openpyxl 处理 Excel 文件

读取 Excel 文件

写入 Excel 文件

设置单元格样式

2.3 使用 xlrd 和 xlwt 处理 Excel 文件

读取 Excel 文件（xlrd）

写入 Excel 文件（xlwt）

2.4 使用 pandas 处理 Excel 文件

读取 Excel 文件

写入 Excel 文件

3. CSV 与 Excel 文件的比较与选择

3.1 CSV 与 Excel 的异同

3.2 选择合适的文件格式

3.3 优化大数据量文件的读取与写入

4. 性能优化和进阶技巧

4.1 使用 pandas 优化大文件的读取与处理

4.2 异常数据的清洗与处理

4.3 批量处理 CSV 和 Excel 文件

5. 常见问题与错误处理

5.1 处理文件编码问题

5.2 数据缺失值的处理

5.3 Excel 文件读写中的常见错误

相关文章

Python的PyQt框架的使用-资源文件夹的使用

总结java中文件拷贝剪切的5种方式-JAVA IO基础总结第五篇

1行Python代码，把Excel转成PDF，python-office功能更新~

atime ctime mtime的影响

postman上传文件测试

操作系统实训复习笔记（2)

Spring Boot 多环境开发配置详解：Profiles 的使用指南

ffmpeg音视频开发从入门到精通——常用结构体介绍(一)

使用 YAML 文件书写属性文件的最佳实践

【面试题】MySQL的三大日志（Redo Log、Binlog和Undo Log）各有什么区别

作者介绍

最新文章

1行Python代码，把Excel转成PDF，python-office功能更新~

postman上传文件测试

Spring Boot 多环境开发配置详解：Profiles 的使用指南

ffmpeg音视频开发从入门到精通——常用结构体介绍(一)

C#读取shp的属性表dbf文件

Springboot自定义变量的使用

热门文章

Python爬虫基础——06-文件的读写

Python 文件读写的问题

c语言文件读写操作

Linux脚本练习之script004-编写一个程序，先查看 `/root/test/logical` 这个名称是否存在，如果不存在，则创建一个文件。使用 `touch` 来创建，创建完成后离开。

Python的文件操作讲座

Java写文件

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

C#读取shp的属性表dbf文件

使用Apache Spark进行Java数据分析

QtThread线程同步和缓冲区设计

Python的文件操作讲座

1.2 使用 Python 内置 `csv` 模块处理 CSV 文件

使用 `DictReader` 和 `DictWriter`

1.3 使用 `pandas` 处理 CSV 文件

2.2 使用 `openpyxl` 处理 Excel 文件

2.3 使用 `xlrd` 和 `xlwt` 处理 Excel 文件

读取 Excel 文件（`xlrd`）

写入 Excel 文件（`xlwt`）

2.4 使用 `pandas` 处理 Excel 文件

4.1 使用 `pandas` 优化大文件的读取与处理