11个100w条dataframe数据写一张工作表多张工作簿优化记录-天翼云

11个100w条dataframe数据写一张工作表多张工作簿优化记录

2024-05-23 09:58:30 阅读次数：43

问题：目前有11个dataframe，最多的dataframe有100w条数据，现在需要把这11个dataframe写入同一个表格的11个工作簿

解决历程：

1.使用 pd.ExcelWriter方法，默认为xlwriter引擎，修改为 openpyxl：

ps: 在本地写入100w条数据大概2分多，但是服务器上大概要20分钟。。。

with pd.ExcelWriter(self.file_name, engine='openpyxl') as file_writer:
    sheet_name1 = 'aaa'
    frame1.to_excel(writer, engine='openpyxl', encoding='utf-8', sheet_name=sheet_name1, index=False)

    sheet_name2 = 'bbb'
    frame2.to_excel(writer, engine='openpyxl', encoding='utf-8', sheet_name=sheet_name2, index=False)

     ...

上述方法只能简单的写入数据，效率较慢

2.在上述的基础上，使用多线程写入，效率提升一小半

with pd.ExcelWriter(self.file_name, engine="openpyxl") as file_writer:
    """采用多线程方式，提高写入速度"""
        thread1 = threading.Thread(target=data_to_excel, args=(frame1, file_writer, 'aaa', 1))
        thread2 = threading.Thread(target=data_to_excel, args=(frame2, file_writer, 'bbb')
        
       ...

        thread1.start()
        thread2.start()
       ...

        thread1.join()
        thread2.join()
       ...

3.虽然使用了多线程，但是保存时最后的save动作耗费的时间还是很长，所以继续优化，直接使用openpyxl库来进行写入：

from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl import Workbook


file_writer = Workbook()
thread1 = threading.Thread(target=data_to_excel, args=(cell_del_frame, file_writer, 'aaa', 1))
thread2 = threading.Thread(target=data_to_excel, args=(cell_data, file_writer, 'bbb'))

...


thread1.start()
thread2.start()
...

thread1.join()
thread2.join()
...

file_writer.save('data.xlsx')



"""""""""""""
data_to_excel
"""""""""""""

def data_to_excel(frame, writer, sheet_name, target=None):
    """ frame写入 excel工作簿"""
    print("开始写入：", sheet_name)
    print("监控报告数据长度:", len(frame))
    # frame.to_excel(writer, engine='openpyxl', encoding='utf-8', sheet_name=sheet_name, index=False)
    if target == 1:
        sheet = writer.active
        sheet.title = sheet_name
    else:
        sheet = writer.create_sheet(sheet_name)
    for row in dataframe_to_rows(frame, index=False):
        sheet.append(row)
    print("写入完成：", sheet_name)

整体写入效率提升1/3，18分钟--> 12分钟完成写入

4.再次更新，效率继续提升，跟上面比再提升1/3的效率，时间缩短1/3。使用 pyexcelerate 库来实现，这里贴一下这个库的官方说明：

PyExcelerate库说明

下面是示例代码：

import pyexcelerate as pe
import datetime

t1 = datetime.datetime.now()
workbook = pe.Workbook()
for i, df in enumerate([data1, data2, data3]):
    sheet_name = f"sheet{i + 1}"
    df_columns = df.columns.tolist()
    col_length = len(df_columns)
    # df.values的结果是一个，没有表头的二维数组，需要手动把表头拼在最前面！
    value = np.concatenate(([np.array(df_columns)], df.values), axis=0)
    workbook.new_sheet(sheet_name, data=value)
workbook.save("output.xlsx")
t2 = datetime.datetime.now()
print('pyexcelerate花费时间：', t2 - t1)

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

11个100w条dataframe数据写一张工作表多张工作簿优化记录

11个100w条dataframe数据写一张工作表多张工作簿优化记录

相关文章

linux服务器安装pip命令

【python基础】学习路线

【后端】【语言】【python】python常见操作

【python】python 打印时间 python打印程序运行时间

【python C结构体】Python Ctypes结构体指针处理(函数参数，函数返回)

Blender下使用python设置骨骼旋转

Python 打包——过去、现在与未来

Python 中 -m 的典型用法、原理解析与发展演变

python编程入门（适合初学者）

python实战三：使用循环while模拟用户登录

作者介绍

最新文章

Django 数据库迁移：makemigrations 和 migrate 命令详解及常见问题解决

pandas数据分析37——链接MySQL转化为数据框

记录一次事故处理50%kudu表无法进行正常访问

正则表达式匹配单个字符（.、[]、\\d、\\D、\\s、\\S、\\w、\\W）

python ljust()、center() 、rjust() 字符串填充左中右对齐

python-字符串数据类型

热门文章

python学习——使用MySQL

关于PyTorch继承nn.Module出现raise NotImplementedError的问题解决方案

python之转义字符

Demo | 神操作，SqlAlchemy用一行命令还原数据库！

pandas to_sql保存数据到数据库后，添加自增长的主键ID(PRIMARY KEY)

python-封装pymysql的思路步骤

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Redis 与 MySQL 数据一致性问题

ElasticSearch - 基础概念，以及和 mysql 的对比

使用for语句实现9*9乘法表

python 字符串字符串的切片操作顺着获取数据

输出1234无重复三位数

python 字符串 格式化输出 槽格式 数字的各种进制 二八十16

python 字符串格式化输出槽格式数字的各种进制二八十16