pandas，polars，pyspark的df对象常见用法对比-天翼云

案例背景

最近上班需要处理的都是百万，千万级的数据，pandas的性能已经不够看了（虽然它在处理数据上是真的很好用），公司都是用的polar和pyspark，我最近也学习了一些，然后写篇文章对比一下他们的常见用法。虽然他们都有数据框dataframe这个数据结构，但是具体用法还是有很多差异的。

数据选取

都是做数据分析的，那么就用最简单的机器学习数据集波士顿房价数据集吧，演示以下常见的数据处理的用法。，然后画个图，简单机器学习一下。

pyspark自己电脑装了也用不了，要分布式的虚拟机。。我这里spark都是用公司环境跑的。和pd和pl本地跑的不一样。

代码实现

我这里就用data1表示pandas的数据结构，data2表示polar数据结构。data3表示pyspark 的数据结构。3个数据结构的相同功能都用各种对应的语法展示。（data3用的不是波士顿房价的数据，是随便从公司sql里面找的一个数据....）

导入包：

import numpy as np
import pandas as pd
import polars as pl
import matplotlib.pyplot as plt 
import seaborn as sns

plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文
plt.rcParams ['axes.unicode_minus']=False               #显示负号

数据读取

首先是pandas的

data1=pd.read_excel('Boston.xlsx')
data1.head(2)

pandas，polars，pyspark的df对象常见用法对比

这个其实polar差不多：

data2=pl.read_excel('Boston.xlsx')  #要装一个什么csv2xlsx的包
data2.head(2)

pandas，polars，pyspark的df对象常见用法对比

pyspark也差不多，但是我读不了本地数据....一直路径不对，可能公司虚拟机里面的的pyspark 的环境不一样。

#df = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

一般来说你都用pyspark了，肯定不会从本地csv读取数据，一般都是直接从sql里面掏：

pandas，polars，pyspark的df对象常见用法对比

pyspark里面的.head()是只展示一行数据。

一般他们都是这样show()

pandas，polars，pyspark的df对象常见用法对比

敏感信息打了个码。

写入文件

#data1.to_csv(filepath)
#data2.write_csv(filepath)
#data3.write.csv(filepath,header=True)

这里就没运行了，但是是可用的，语法差不多。

查看数据基本信息

pandas很方便的info就行

()

pandas，polars，pyspark的df对象常见用法对比

polar里面具有没有这个方法，见鬼，我只找到一个差不多的：

data2.schema

pandas，polars，pyspark的df对象常见用法对比

这个只有数据类别，没得非空值什么的信息，差评。

pyspark是这样的：

data3.printSchema()

pandas，polars，pyspark的df对象常见用法对比

其他的类型，变量名，数据形状，都是差不多：

print(data1.dtypes) ;print(data2.dtypes)  #类型
print(data1.shape)  ;print(data2.shape)   #形状
print(data1.columns);print(data2.columns) #列名称

pandas，polars，pyspark的df对象常见用法对比

pyspark是这样的：

print(data3.dtypes)
print((data3.count(), len(data3.columns)))
print(data3.columns)

pandas，polars，pyspark的df对象常见用法对比

描述性统计

这是也是一样的，都是data.describe()就行

data1.describe()

pandas，polars，pyspark的df对象常见用法对比

data2.describe()

pandas，polars，pyspark的df对象常见用法对比

pyspark是这样的

data3.describe().show()

pandas，polars，pyspark的df对象常见用法对比

查看缺失值和填充

pandas 的我很熟悉

print(data1.isnull().sum())
data1.fillna('2')

pandas，polars，pyspark的df对象常见用法对比

polars有些变化

print(data2.null_count())
data2.fill_null('2')

pandas，polars，pyspark的df对象常见用法对比

ps：polars填充了然后想覆盖掉原来的列还很麻烦，大概这样：

pdf_global_dev1.with_columns(pdf_global_dev1['col_name'].fill_null(0).alias('col_name'))

pyspark贼复杂

from pyspark.sql.functions import col, sum,expr,split,substring,when
data3.agg(*[sum(col(c).isNull().cast("int")).alias(c) for c in data3.columns]).show()
# 显示每列的缺失值数量

pandas，polars，pyspark的df对象常见用法对比

填充倒是一样的

data3.fillna(2)

数据切片

我觉得pandas 的数据切片真的很厉害，很逻辑完善。

data1.loc[10:15,['CRIM','ZN']]

pandas，polars，pyspark的df对象常见用法对比

polars还没怎么用熟，不好评价

data2.slice(10, 5).select(['CRIM', 'ZN'])   ##10是开始，5是行数

pandas，polars，pyspark的df对象常见用法对比

这里就得提一下了，polars没有索引这个东西，所以他的切片是用开始的位置和长度来穿入参数的。太离谱了，pandas的多层索引简直是诺贝尔奖发现好不好，polars居然没得索引这个东西，虽然简化一些东西，但是很多功能都丢失了。

pyspark就更加离谱了，还需要加个辅助列表示行数才能切片。。。

from pyspark.sql.functions import monotonically_increasing_id
df_with_row_index = data3.withColumn("row_index", monotonically_increasing_id())  #新增辅助列
# 切片操作
df_with_row_index.filter((col("row_index") >= 10) & (col("row_index") <= 15)).drop("row_index").select("age", "gender").show()

pandas，polars，pyspark的df对象常见用法对比

可能pyspark这种对大数据处理的只会动列，不会动行，也就没得行索引这个东西，连切片都没对应的方法。

数据筛选

语法差不多，各有优缺点吧

pandas

data1[data1['MEDV'] >49.9 ]

polars

data2.filter(data2['MEDV'] >49.9)

pyspark

data3.filter(data3.age>90).show()

选两列数据

data1[['NOX', 'RAD']]

data2.select(['NOX', 'RAD'])

data3.select("age", "gender")

数据合并

pandas 的方法太多了：

data1.merge(pd.Series(np.random.randint(0, 10, size=len(data1)),name='new'),left_index=True, right_index=True)
## 还可以pd.concat([]),还可以直接data1['new']=

pandas，polars，pyspark的df对象常见用法对比

polars这个名称是真离谱啊，合并了之后名称不知道怎么给，只能重命名

##### 也是新增一列的用法
data2.with_columns(pl.Series('new1',np.random.randint(0, 10, size=len(data1)))).rename({'new1':'new'})

pandas，polars，pyspark的df对象常见用法对比

pyspark就是这样子加一列。

data3_with_new = data3.withColumn("new", expr("rand() * 10"))  # 使用rand()函数生成随机数列

分组聚合

分组聚合麻烦起来很麻烦，可以写得超级复杂，咱们就简单求和试试

pandas：

data1.groupby('RAD').sum()

pandas，polars，pyspark的df对象常见用法对比

polars差不多

data2.groupby('RAD').sum()

pandas，polars，pyspark的df对象常见用法对比

pyspark的

data3.groupBy('family_role_code').count().show()

pandas，polars，pyspark的df对象常见用法对比

删除缺失值

数据是没缺失值的，就随便演示一下了

#data1.dropna()
data2.drop_nulls()

pandas，polars，pyspark的df对象常见用法对比

spark和pandas一样

data3.dropna()

数据排序

pandas长一些

data1.sort_values(['MEDV','B'],ascending=False)

polars短一点，且参数名称可能有点不一样

data2.sort(by=['MEDV', 'B'],descending=True)

pandas，polars，pyspark的df对象常见用法对比

data3.orderBy([data3.age,data3.nik_num],ascending=False).show(5)

pandas，polars，pyspark的df对象常见用法对比

列名称重命名

panadas除了rename，其实还有很多方法的。

data1.rename(columns={'MEDV':'y'})

pandas，polars，pyspark的df对象常见用法对比

polars也有rename，但是不能传入columns，而且他也有很多别的方法

#data2.select(pl.col('MEDV').alias('10Medv'))  #挑选一行数据出来重命名
data2.select([ pl.col('NOX').alias('no'),
    pl.col('RAD').alias('yes')])   #挑选2行数据出来重命名
data2.rename({'MEDV':'y'})  #没索引这个概念，所以就不用传入形参

spark就是这样的：

data3.withColumnRenamed('kk','户口号')

应用函数

简单的函数应该是差不多的，复杂的可以有区别，但是后面遇到再说

data1['DIS'].apply(lambda x:str(x).split('.')[0])

pandas，polars，pyspark的df对象常见用法对比

data2['DIS'].apply(lambda x:str(x).split('.')[0])

pandas，polars，pyspark的df对象常见用法对比

添加一个是否包含的虚拟变量：

pdf_global_dev1= pdf_global_dev1.with_columns(
        pl.col('rulelist').map_elements(lambda x : '1' if rule in x else '0', return_dtype=pl.Utf8).alias(f'{rule}').fill_null(0))

数值型就是这样的：

for rule in set_kind:
    # 对每一条规则，创建一个新列，如果规则在'rulelist'列中，则该列值为1，否则为0
    df_cust1 = df_cust1.with_column(
        pl.col('rulelist').apply(lambda x : 1 if rule in x else 0, return_dtype=pl.Int64).alias(f'{rule}')
    )

我顺便验证一下pyspark切换数据类型的语法，多写了几个方法函数：

这个是年龄变成字符串切片整数

data3.withColumn("age_int", split(col("age").cast("string"), "\\.").getItem(0)).show(10)   # 取age 的整数

pandas，polars，pyspark的df对象常见用法对比

这是将年龄和nik_num变成整型数

data3=data3.withColumn("age", col("age").cast("integer"))#.show()
data3=data3.withColumn("nik_num", col("nik_num").cast("integer"))
data3.show()

pandas，polars，pyspark的df对象常见用法对比

这是将户口本变成数值型数据然后+4

data3.withColumn("kk_new", col("kk").cast("double") + 4).show(8)              # 转为数值然后+1

pandas，polars，pyspark的df对象常见用法对比

这是将身份证里面的2-4位切片出来（spark居然是从1开始，不是0开始，我人晕了）

data3.withColumn("nik_shi", substring(col("nik").cast("string"), 3, 2)).show()      #

pandas，polars，pyspark的df对象常见用法对比

连接数据

pandas里面主要是merge函数

polars更像sql里面用join

#data1.merge(data11, on='key')
#data2.join(data22, on='key')
#data3.join(data3_with_new, data3["kk"] == data3_with_new["kk"])    
#pyspark一般用法：   #df1.join(df2, df1['col'] == df2['col'])

删除某一列数据

两个一模一样

data1.drop(columns=['MEDV'])

data2.drop(columns=['MEDV'])

pyspark可以不用传入形参，我先增加一列，然后删除一列。

data3.withColumn('newColumn',F.lit('new')).drop('newColumn')

相互转化

polars数据结构也可以变成pandas和numpy的

import pyarrow as pa
data2.to_pandas()  #需要安装pyarrow
#data2.to_numpy()  #也可以直接运行
data3.toPandas()

pyspark变不成numpy，但变成了pandas再变numpy也是一样的。

链式法则

弄个复杂一点的代码段吧，来对比他们的区别

pandas的

(data1.assign(sum_B=data1['B'].sum())  # 求和的
    .assign(sorted_MEDV=data1['MEDV'].sort_values())  # 排序的
    .assign(first_name=data1['RAD'].iloc[0])  # 第一个
    .assign(Medv=data1['MEDV'].mean() * 10)  # 10倍
)[['sum_B','sorted_MEDV','first_name','Medv']].sort_values('sorted_MEDV')

pandas，polars，pyspark的df对象常见用法对比

polars 的：

data2.select(
    pl.sum('B'),  #求和的
    pl.col('MEDV').sort(),  #排序的
    pl.col('RAD').first().alias('first name'),  #第一个
    (pl.mean('MEDV')*10).alias('10Medv'),   #10倍
)

pandas，polars，pyspark的df对象常见用法对比

spark就不写了，报错弄了半天也不知道为什么。。

数量统计

panadas我最常用的就是value_counts()的方法了吧，很方便统计一列数据每个出现的次数。

data1['RAD'].value_counts()

polars好像也一样

pyspark的对应：

#grouped_df['kk_ucnt'].value_counts()。  pandas方法
(grouped_df.groupBy('kk_ucnt')
                  .count()
                  .orderBy(F.col('count').desc()))

# grouped_df.groupby('nik_ucnt')['kk_ucnt'].value_counts().unstack()
result_df = (grouped_df.groupBy('nik_ucnt')
             .pivot('kk_ucnt')
             .count()  # 计算每个组合的次数
             .na.fill(0)  # 将空值填充为0，相当于unstack后的fillna(0)
             .orderBy('nik_ucnt'))

画图

pandas 的对象可以直接.plot画图的，也可以plt画图，我发现polars对象也能直接plt画图，还不错。

plt.figure(figsize=(3,2))
data1['MEDV'].plot.box() # 只有padnas对象可以这样这个方法
#plt.boxplot(data1['MEDV']) #正常的plt画图
plt.boxplot(data2['MEDV'])   #pl数据也能用plt画图
plt.show()

pandas，polars，pyspark的df对象常见用法对比

spark没得直接画图的方法，也是变成了pandas才能画图

plt.figure(figsize=(3,2))
plt.boxplot(data3.select(['age']).toPandas())   #sparkde 数据只能转为pd才能画图
plt.show()

机器学习

我们直接把polars数据结构扔到sklearn库里面去

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
X = data2.drop(columns=['MEDV'])
y = data2['MEDV']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

线性回归：

# 线性回归
model =  LinearRegression()
model.fit(X_train, y_train)
model.score(X_test, y_test)

pandas，polars，pyspark的df对象常见用法对比

随机森林回归

# 随机森林
model =  RandomForestRegressor()
model.fit(X_train, y_train)
model.score(X_test, y_test)

pandas，polars，pyspark的df对象常见用法对比

居然是和pandas一模一样的数据结果，还不错。

pyspark那差别就大了：

我们先转化数据都变成数值型：

data3=data3.withColumn("kk", col("kk").cast("double")).withColumn("nik", col("nik").cast("double"))
data3=data3.withColumn("family_role_code", col("family_role_code").cast("integer")) 
data4=data3.withColumn("gender", when(col("gender") == "F", 1).otherwise(0))
data4.groupBy("gender").count().show()


data4.agg(*[sum(col(c).isNull().cast("int")).alias(c) for c in data4.columns]).show()

确定没缺失值后，进行机器学习：也是随机森林



from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# 创建SparkSession对象
spark = SparkSession.builder.getOrCreate()
label_indexer = StringIndexer(inputCol="gender", outputCol="label")
data4=data4.na.drop()
# 特征向量转换器
feature_columns = data4.columns
feature_columns.remove('gender') 
feature_assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")

# 随机森林分类器
rf = RandomForestClassifier(featuresCol="features", labelCol="label")

# 构建Pipeline
from pyspark.ml import Pipeline
pipeline = Pipeline(stages=[label_indexer, feature_assembler, rf])

# 拆训练集和测试集
train_data, test_data = data4.randomSplit([0.7, 0.3], seed=123)

# 训练模型
model = pipeline.fit(train_data)
predictions = model.transform(test_data)
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print("准确率：", accuracy)

pandas，polars，pyspark的df对象常见用法对比

哇贼复杂，要变形编码数据后构建管道，感觉不好用。。不是数据量大到上千w我是不会想用这个来机器学习的。。。sklearn才是真神。

总结

感觉上来说，pandas和polars最大差异在于polars没得索引这个东西，并且很多新增列，条件筛选，切片等等是存在一定的差异的，相似地方也有一些。最让我惊喜的是plt和sklearn可以完美兼容polars的数据结构，那就真的很不错了。

pyspark有的位置和pandas很像，但是有的位置又和他们差太远了，要用好这个东西还是得多练多写。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

pandas，polars，pyspark的df对象常见用法对比

pandas，polars，pyspark的df对象常见用法对比

案例背景

数据选取

代码实现

数据读取

写入文件

查看数据基本信息

描述性统计

查看缺失值和填充

数据切片

数据筛选

数据合并

分组聚合

删除缺失值

数据排序

列名称重命名

应用函数

连接数据

删除某一列数据

相互转化

链式法则

数量统计

画图

机器学习

总结

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

如何求模平方根？

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

大数据技术栈简要介绍

【Flask项目2】python对象分页数据序列化基类（5）

尺度函数在数据分析中的应用与实现

pandas数据分析41——不同地区不同城市数据分级统计汇总

热门文章

5、使用PyTorch 实现线性回归

python使用numpy保存字典格式的数据

pandas Dataframe读取数据表是自定义列名

利用函数求出一个数组最大三个数的乘积

猜字母问题

Django返回json数据

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

python numpy修改数据维度

pandas高级处理-数据离散化

小球落地问题

路径总和

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

python-布尔数据