R语言Poisson回归的拟合优度检验-天翼云

R语言Poisson回归的拟合优度检验

2023-07-07 07:48:36 阅读次数：356

在这篇文章中，我们将看一下Poisson回归的拟合优度测试与个体计数数据。许多软件包在拟合Poisson回归模型时在输出中提供此测试，或者在拟合此类模型（例如Stata）之后执行此测试，这可能导致研究人员和分析人员依赖它。在这篇文章中，我们将看到测试通常不会按预期执行，因此，我认为，应该谨慎使用。

偏差拟合度检验

由于偏差度量衡量了模型预测与观察结果的接近程度，我们可能会考虑将其作为给定模型拟合度检验的基础。虽然我们希望我们的模型预测接近观察到的结果，但即使我们的模型被正确指定，它们也不会相同 - 毕竟，模型给出了观察所遵循的泊松分布的预测平均值。

因此，为了将偏差用作拟合优度检验，我们需要弄清楚，假设我们的模型是正确的，在泊松假设下，我们在预测均值周围观察到的结果中会有多少变化。由于偏差可以作为将当前模型与饱和模型进行比较的轮廓似然比检验得出，因此可能性理论会预测（假设模型被正确指定），偏差遵循卡方分布，自由度等于参数数量的差异。饱和模型可以被视为一个模型，它为每个观察使用不同的参数，因此它具有参数。如果我们提出的模型具有参数，这意味着将偏差与参数的卡方分布进行比较。

在R中执行拟合优度测试

现在看看如何在R中执行拟合优度测试。首先我们将模拟一些简单的数据，具有均匀分布的协变量x和泊松结果y：

set.seed（612312）

n < -  1000
x < -  runif（n）
y < -  rpois（n，mean）

为了使Poisson GLM适合数据，我们只需使用glm函数：

Call:
glm(formula = y ~ x, family = poisson)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2547  -0.8859  -0.1532   0.6096   3.0254  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.04451    0.05775  -0.771    0.441    
x            1.01568    0.08799  11.543   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 1247.7  on 999  degrees of freedom
Residual deviance: 1110.3  on 998  degrees of freedom
AIC: 3140.9

Number of Fisher Scoring iterations: 5

这里的偏差被glm函数标记为“剩余偏差”，这里是1110.3。有1000个观测值，我们的模型有两个参数，因此自由度为998，由R作为残差df给出。为了计算偏差拟合度检验的p值，我们简单地计算998自由度上卡方分布的偏差值右侧的概率：

pchisq（mod $ deviance，df = mod $ df.residual，lower.tail = FALSE）
[1] 0.00733294

零假设是我们的模型被正确指定，我们有强有力的证据来拒绝这个假设。因此，我们有充分的证据表明我们的模型非常适合。

通过仿真检验泊松回归拟合检验的偏差优度

为了研究测试的性能，我们进行了一个小的模拟研究。我们将使用与以前相同的数据生成机制生成10,000个数据集。对于每一个，我们将拟合（正确的）泊松模型，并收集拟合p值的偏差良好性。然后我们将看到它小于0.05的次数：

nSim <- 10000
pvalues <- array(0, dim=nSim)

for (i in 1:nSim) {

n <- 1000
x <- runif(n)
mean <- exp(x)
y <- rpois(n,mean)

mod <- glm(y~x, family=poisson)
pvalues[i] <- pchisq(mod$ , df=mod$df. , lower.tail= )

}

mean(1*(pvalues<0.05))

最后一行创建一个向量，其中如果p值小于0.05，则每个元素为1，否则为零，然后使用mean（）计算这些元素的比例。当我运行这个时，我得到了0.9437，这意味着偏差测试错误地表明我们的模型在94％的情况下被错误地指定

为了在平均值较大时查看情况是否发生变化，让我们修改模拟。我们现在将生成具有泊松均值的数据，其结果为20到55：

nSim < -  10000
pvalues < -  array（0，dim = nSim）

for（i in 1：nSim）{

n < -  1000
x < -  runif（n）
 < -  exp（3 + x）
y < -  rpois（n，mean）

mod < -  glm（y~x，family = poisson）
pvalues [i] < -  pchisq（mod $  ，df = mod $ df. ，lower.tail = FALSE）

}

现在，显着偏差测试的比例降低到0.0635，更接近标称的5％1类错误率。

结论

上面显然是一个非常有限的模拟研究，但我对结果的看法是，虽然偏差可能表明泊松模型是否适合，但我们应该对使用由此产生的p值有些警惕。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

R语言Poisson回归的拟合优度检验

R语言Poisson回归的拟合优度检验

相关文章

【大数据部落】r语言多均线股票价格量化策略回测

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

R语言分段回归数据分析案例报告

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究|附代码数据

R语言实现偏最小二乘回归法 partial least squares (PLS)回归

R语言阈值模型代码示例

R语言CRAN软件包Meta分析

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

作者介绍

最新文章

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

【大数据部落】r语言多均线股票价格量化策略回测

R语言分段回归数据分析案例报告

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究|附代码数据

热门文章

R语言中实现层次聚类模型

R语言k折交叉验证

R语言实现偏最小二乘回归法 partial least squares (PLS)回归

R语言使用ARIMA模型预测股票收益时间序列

R语言中的prophet预测时间序列数据模型

R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

R语言阈值模型代码示例

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

R语言GAM（广义相加模型）对物业耗电量进行预测

R语言区间数据回归分析

R语言使用倾向评分提高RCT（随机对照试验）的效率

在R语言中实现Logistic逻辑回归