R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据-天翼云

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

2024-08-08 09:32:16 阅读次数：27

环境科学中的许多数据不适合简单的线性模型，最好用广义相加模型（GAM）来描述。

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

这基本上就是具有光滑函数的广义线性模型（GLM）的扩展。当然，当您使用光滑项拟合模型时，可能会发生许多复杂的事情，但是您只需要了解基本原理即可。

理论

让我们从高斯线性模型的方程开始：

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

GAM中发生的变化是存在光滑项：

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

这仅意味着对线性预测变量的贡献现在是函数f。从概念上讲，这与使用二次项（

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

）或三次项（

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

）作为预测变量没什么不同。

在这里，我们将重点放在样条曲线上。在过去，它可能类似于分段线性函数。

例如，您可以在模型中包含线性项和光滑项的组合

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

或者我们可以拟合广义分布和随机效应

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

一个简单的例子

让我们尝试一个简单的例子。首先，让我们创建一个数据框，并创建一些具有明显非线性趋势的模拟数据，并比较一些模型对该数据的拟合程度。

x <- seq(0, pi * 2, 0.1)
sin_x <- sin(x)
y <- sin_x + rnorm(n = length(x), mean = 0, sd = sd(sin_x / 2))
Sample <- data.frame(y,x)

library(ggplot2)
ggplot(Sample, aes(x, y)) + geom_point()

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

尝试拟合普通的线性模型：

lm_y <- lm(y ~ x, data = Sample)

并使用geom_smooth in 绘制带有数据的拟合线 ggplot

ggplot(Sample, aes(x, y)) + geom_point() + geom_smooth(method = lm)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

查看图或 summary(lm_y)，您可能会认为模型拟合得很好，但请查看残差图

plot(lm_y, which = 1)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

显然，残差未均匀分布在x的值上，因此我们需要考虑一个更好的模型。

左右滑动查看更多

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

运行分析

在R中运行GAM。

要运行GAM，我们使用：

gam_y <- gam(y ~ s(x), method = "REML")

要提取拟合值，我们可以predict ：

predict(gam_y, data.frame(x = x_new))

但是对于简单的模型，我们还可以利用中的 method = 参数来 geom_smooth指定模型公式。

您可以看到该模型更适合数据，检查诊断信息。

check.gam 快速简便地查看残差图。

gam.check(gam_y)

## 
## Method: REML   Optimizer: outer newton
## full convergence after 6 iterations.
## Gradient range [-2.37327e-09,1.17425e-09]
## (score 44.14634 & scale 0.174973).
## Hessian positive definite, eigenvalue range [1.75327,30.69703].
## Model rank =  10 / 10 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##        k'  edf k-index p-value
## s(x) 9.00 5.76    1.19     0.9

对模型对象使用summary将为您提供光滑项（以及任何参数项）的意义，以及解释的方差。在这个例子中，非常合适。“edf”是估计的自由度——本质上，数量越大，拟合模型就越摇摆。大约为1的值趋向于接近线性项。

## 
## Family: gaussian 
## Link function: identity 
## 
## Formula:
## y ~ s(x)
## 
## Parametric coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.01608    0.05270  -0.305    0.761
## 
## Approximate significance of smooth terms:
##       edf Ref.df     F p-value    
## s(x) 5.76  6.915 23.38  <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## R-sq.(adj) =  0.722   Deviance explained = 74.8%
## -REML = 44.146  Scale est. = 0.17497   n = 63

光滑函数项

如上所述，我们将重点介绍样条曲线，因为样条曲线是最常实现的光滑函数（非常快速且稳定）。那么，当我们指定s(x)时实际发生了什么？

好吧，这就是我们说要把y拟合为x个函数集的线性函数的地方。默认输入为薄板回归样条-您可能会看到的常见样条是三次回归样条。三次回归样条曲线具有我们在谈论样条曲线时想到的传统结点–在这种情况下，它们均匀分布在协变量范围内。

基函数

我们将从拟合模型开始，记住光滑项是一些函数的和，

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

首先，我们提取_基本函数_集（即光滑项的bj（xj）部分）。然后我们可以画出第一和第二基函数。

model_matrix <- predict(gam_y, type = "lpmatrix")
plot(y ~ x)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

现在，让我们绘制所有基函数的图，然后再将其添加到GAM（y_pred）的预测中。

matplot(x, model_matrix[,-1], type = "l", lty = 2, add = T)
lines(y_pred ~ x_new, col = "red", lwd = 2)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

现在，最容易想到这样-每条虚线都代表一个函数（bj），据此 gam 估算系数（βj），将它们相加即可得出对应的f（x）的贡献（即先前的等式）。对于此示例而言，它很好且简单，因为我们仅根据光滑项对y进行建模，因此它是相当相关的。顺便说一句，您也可以只使用 plot.gam 绘制光滑项。

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

好的，现在让我们更详细地了解基函数的构造方式。您会看到函数的构造与因变量数据是分开的。为了证明这一点，我们将使用 smoothCon。

x_sin_smooth <- smoothCon(s(x), data = data.frame(x), absorb.cons = TRUE)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

现在证明您可以从基本函数和估计系数到拟合的光滑项。再次注意，这里简化了，因为模型只是一个光滑项。如果您有更多的项，我们需要将线性预测模型中的所有项相加。

betas <- gam_y$coefficients
linear_pred <- model_matrix %*% betas

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

请看下面的图，记住这 X 是基函数的矩阵。

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

通过 gam.models ， smooth.terms 光滑模型类型的所有选项，基本函数的构造方式（惩罚等），我们可以指定的模型类型（随机效应，线性函数，交互作用）。

真实例子

我们查看一些CO2数据，为数据拟合几个GAM，以尝试区分年度内和年度间趋势。

首先加载数据。

CO2 <- read.csv("co2.csv")

我们想首先查看年趋势，因此让我们将日期转换为连续的时间变量（采用子集进行可视化）。

CO2$time <- as.integer(as.Date(CO2$Date, format = "%d/%m/%Y"))

我们来绘制它，并考虑一个平稳的时间项。

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

我们为这些数据拟合GAM

它拟合具有单个光滑时间项的模型。我们可以查看以下预测值：

plot(CO2_time)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

请注意光滑项如何减少到“普通”线性项的（edf为1）-这是惩罚回归样条曲线的优点。但如果我们检查一下模型，就会发现有些东西是混乱的。

par(mfrow = c(2,2))
gam.check(CO2_time)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

残差图的上升和下降模式看起来很奇怪-显然存在某种依赖关系结构（我们可能会猜测，这与年内波动有关）。让我们再试一次，并引入一种称为周期光滑项。

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

周期性光滑项fintrannual（month）由基函数组成，与我们已经看到的相同，只是样条曲线的端点被约束为相等，这在建模时是有意义的周期性（跨月/跨年）的变量。

现在，我们将看到 bs = 用于选择光滑器类型的k = 参数和用于选择结数的参数，因为三次回归样条曲线具有固定的结数。我们使用12结，因为有12个月。

s(month, bs = 'cc', k = 12) + s(time)

让我们看一下拟合的光滑项：

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

从这两个光滑项来看，我们可以看到，月度光滑项检测到CO2浓度的月度上升和下降——从相对幅度（即月度波动与长期趋势）来看，我们可以看出消除时间序列成分是多么重要。让我们看看现在的模型诊断是怎样的：

par(mfrow = c(2,2))
gam.check(CO2_season_time)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

好多了。让我们看一下季节性因素如何与整个长期趋势相对应。

plot(CO2_season_time)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

结果

从本质上讲，您可以将GAM的模型结果表示为任何其他线性模型，主要区别在于，对于光滑项，没有单一系数可供推断（即负、正、效应大小等）。因此，您需要依靠视觉上解释光滑项（例如从对plot（gam_model）的调用）或根据预测值进行推断。当然，你可以在模型中包含普通的线性项（无论是连续的还是分类的，甚至在方差分析类型的框架中），并像平常一样从中进行推断。事实上，GAM对于解释一个非线性现象通常是有用的，这个非线性现象并不直接引起人们的兴趣，但在推断其他变量时需要加以解释。

您可以通过plot 在拟合的gam模型上调用函数来绘制局部效果，还可以查看参数项，也可以使用 termplot 函数。您可以ggplot 像本教程前面所述那样使用简单的模型，但是对于更复杂的模型，最好知道如何使用predict预测数据。

geom_line(aes(y = predicted_values)

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

理论

一个简单的例子

运行分析

光滑函数项

基函数

真实例子

结果

相关文章

按天备份mongodb的数据

MySQL之RANGE类型时间分区案例

【源码分析】chunjun实现flink sql连接器的顶层思想：通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期

docker之容器管理篇

大数据治理的介绍与认识

【分布式理论13】分布式存储：数据存储难题与解决之道

Android 架构设计(一)：设计模式分析

【技术精华】如何解决缓存击穿？

大数据平台的运维与管理技巧

数据治理在大数据环境中的实施策略

作者介绍

最新文章

【源码分析】chunjun实现flink sql连接器的顶层思想：通过实现InputFormatSourceFunction来串起flink sql 连接器的生命周期

Python 的函数式编程与应用场景

【大模型应用开发极简入门】微调（一）：1.微调基础原理介绍、2. 微调的步骤、3. 微调的应用（Copilot、邮件、法律文本分析等）

【wordcount】flink 代码快速入门

【机器学习基础1】什么是机器学习、预测模型解决问题的步骤、机器学习的Python生态圈

Java byte数组异或校验

热门文章

R语言Rstan概率编程规划MCMC采样的贝叶斯模型

R语言方差分析（ANOVA）学生参加辅导课考试成绩差异

Python|斐波那契数列

游戏编程之十一 图像页CPICPAGE介绍

PHP：将list列表转为tree树形数据

r语言中对LASSO，Ridge岭回归和Elastic Net模型实现

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

r语言中对LASSO，Ridge岭回归和Elastic Net模型实现

Python数据分析招式：pandas库提取清洗排序-1

软件开发入门教程网之MySQL 处理重复数据

R语言-自定义函数

音视频八股文（5）--SDL音视频渲染实战。会使用就行，不需要深究。

数据分享|R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化|附代码数据

游戏编程之十一图像页CPICPAGE介绍