Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)-天翼云

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

2024-10-17 09:59:41 阅读次数：22

数据框有两列的时候，我们想筛选A列大于B列的样本出来时，只需要用布尔值索引就行：

df[df['A']>df['B]]

可是多条件的筛选的时候怎么办，比如我需要A大于B列，还有A小于C列。

可以写多条件的索引:

df[(df['actual']>df['Low']) &(df['actual']<df['Upper'])]

在做区间估计的评价指标的时候，我想找出预测的真实值小于最大值和大于最小值的情况的个数，可以用上面的方法，还可以用一个更加简单的方法：

df.query('Low<actual<Upper')

也可以复杂点，用新增列布尔值去逻辑运算，多条件判断，找到不符合情况的样本的布尔值，然后去索引。

df[df.assign(up=df.Upper<df.actual).assign(lo=df.Low>df.actual).assign(bo=lambda d:d[['up','lo']].any(axis=1))['bo']]

区间估计指标

这里给出论文里面的四个区间估计的评价指标公式:

PICP：

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

PINAW：

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

CWC：

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

还有一个新指标PIEE：

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

他们各有各的优缺点，要结合起来看，

下面给出他们的计算代码函数：

import numpy as np
import pandas as pd

def PICP(df_alltau,y_test,u=0.9):
    df=pd.DataFrame()
    df['Low']=np.array(df_alltau.T.min())
    df['Upper']=np.array(df_alltau.T.max())
    df['actual']=np.array(y_test)
    
    picp=len(df.query('Low<actual<Upper'))/len(y_test)
    
    df['inter']=df['Upper']-df['Low']
    rax=df['actual'].max()-df['actual'].min()
    pinaw=df['inter'].mean()/rax
    
    gama=np.greater(0,(picp-u))*1
    #print(gama)
    cwc=pinaw*(1+gama*np.exp(-(picp-u)))
    
    eup=df[df.assign(up=df.Upper<df.actual).up].assign(inter2=df.actual-df.Upper)['inter2'].sum()
    elo=df[df.assign(up=df.Low>df.actual).up].assign(inter2=df.Low-df.actual)['inter2'].sum()
    piee=(eup+elo)/(len(y_test)*rax)
    
    return picp,pinaw,cwc,piee

df_alltau就是预测的区间估计值（对一个y预测了很多可能性），y_test就是测试集数据。

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

u是CWC的PICP阈值，这里取了0.9。 aita为了方便取1了。

最难整的就是PIEE，我筛选了很久.....

点估计评价指标

回归问题的点估计评价指标很常用，通常是MAE,RMSE,MAPE,r/R^{2}等,给出他们四个的计算代码：

import numpy as np
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error,r2_score

def evaluation(y_test, y_predict):
    y_test=np.array(y_test);y_predict=np.array(y_predict)
    mae = mean_absolute_error(y_test, y_predict)
    mse = mean_squared_error(y_test, y_predict)
    rmse = np.sqrt(mean_squared_error(y_test, y_predict))
    mape=(abs(y_predict -y_test)/ y_test).mean()
    r_2=r2_score(y_test, y_predict)
    return mae, rmse, mape,r_2

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

Pandas数据分析33——数据多条件筛选(点估计和区间估计评价指标)

区间估计指标

点估计评价指标

相关文章

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

linux服务器安装pip命令

【python基础】学习路线

【后端】【语言】【python】python常见操作

【python】python 打印时间 python打印程序运行时间

【python C结构体】Python Ctypes结构体指针处理(函数参数，函数返回)

Python 与金融分析：股票数据分析实战

Blender下使用python设置骨骼旋转

Python 打包——过去、现在与未来

Python 中 -m 的典型用法、原理解析与发展演变

作者介绍

最新文章

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

大数据技术栈简要介绍

【Flask项目2】python对象分页数据序列化基类（5）

尺度函数在数据分析中的应用与实现

pandas数据分析41——不同地区不同城市数据分级统计汇总

pandas，polars，pyspark的df对象常见用法对比

热门文章

5、使用PyTorch 实现线性回归

python使用numpy保存字典格式的数据

pandas Dataframe读取数据表是自定义列名

利用函数求出一个数组最大三个数的乘积

猜字母问题

解决python读取json格式数据后提取object不存在报错KeyError

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Lc216_组合总和III

输入年月日判断是本年的第多少天

pandas数据预处理(标准化&归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

python数据容器之集合相关的操作

Cypress命令行基础

十进制与二进制的互换