R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据-天翼云

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

2023-07-07 07:51:05 阅读次数：358

本文使用lasso或非凸惩罚拟合线性回归，GLM和Cox回归模型的正则化，特别是最小最大凹度惩罚函数(MCP)和光滑切片绝对偏差惩罚（SCAD），以及其他L2惩罚的选项（ “弹性网络”）。还提供了用于执行交叉验证以及拟合后可视化，摘要，推断和预测的实用程序。

我们研究前列腺数据，它具有8个变量和一个连续因变量，即将进行根治性前列腺切除术的男性的PSA水平（按对数尺度）：

X <- data$X
y <- data$y

要将惩罚回归模型拟合到此数据，执行以下操作：

reg(X, y)

此处的默认惩罚是最小最大凹度惩罚函数(MCP)，但也可以使用SCAD和lasso惩罚。这将产生一个系数路径，我们可以绘制

plot(fit)

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

注意，变量一次输入一个模型，并且在λ的任何给定值下，几个系数均为零。要查看系数是多少，我们可以使用以下 coef 函数：

coef(fit, lambda=0.05)
# (Intercept)      lcavol     lweight         age        lbph         svi 
#  0.35121089  0.53178994  0.60389694 -0.01530917  0.08874563  0.67256096 
#         lcp     gleason       pgg45 
#  0.00000000  0.00000000  0.00168038

该 summary 方法可用于后选择推断：

summary(fit 
# MCP-penalized linear regression with n=97, p=8
# At lambda=0.0500:
# -------------------------------------------------
#   Nonzero coefficients         :   6
#   Expected nonzero coefficients:   2.54
#   Average mfdr (6 features)    :   0.424
# 
#         Estimate      z     mfdr Selected
# lcavol   0.53179  8.880  < 1e-04        *
# svi      0.67256  3.945 0.010189        *
# lweight  0.60390  3.666 0.027894        *
# lbph     0.08875  1.928 0.773014        *
# age     -0.01531 -1.788 0.815269        *
# pgg45    0.00168  1.160 0.917570        *

在这种情况下，即使调整了模型中的其他变量之后，lcavol， svi以及 lweight 显然与因变量关联，同时 lbph， age和 pgg45 可能只是偶然包括。通常，为了评估模型在λ的各种值下的预测准确性，将执行交叉验证：

plot(cvfit)

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

使交叉验证误差最小的λ的值由 cvfit$lambda.min给出，在这种情况下为0.017。将coef 在return的输出应用于 cv.ncvreg λ的值的系数：

coef 
#  (Intercept)       lcavol      lweight          age         lbph          svi 
#  0.494154801  0.569546027  0.614419811 -0.020913467  0.097352536  0.752397339 
#          lcp      gleason        pgg45 
# -0.104959403  0.000000000  0.005324465

可以通过predict来获得预测值，该选项有多种选择：

predict(cvfit
# 预测新观测结果的响应
#         1         2         3         4         5         6 
# 0.8304040 0.7650906 0.4262072 0.6230117 1.7449492 0.8449595
 
# 非零系数的数量
# 0.01695 
#       7
 
# 非零系数的特性
#  lcavol lweight     age    lbph     svi     lcp   pgg45 
#       1       2       3       4       5       6       8

请注意，原始拟合（至完整数据集）的结果为 cvfit$fit；不必同时调用两者 ncvreg 和 cv.ncvreg 分析数据集。

如， plot(cvfit$fit) 将产生与上述相同的系数路径图 plot(fit) 。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

相关文章

【大数据部落】r语言多均线股票价格量化策略回测

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

R语言分段回归数据分析案例报告

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

Python 与金融分析：股票数据分析实战

数据仓库是什么？数据仓库简介

使用Apache Spark进行Java数据分析

大数据技术栈简要介绍

Python数据分析与可视化的全面指南

作者介绍

最新文章

【大数据部落】r语言多均线股票价格量化策略回测

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

R语言分段回归数据分析案例报告

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

Python 与金融分析：股票数据分析实战

热门文章

R语言中实现层次聚类模型

R语言k折交叉验证

R语言实现偏最小二乘回归法 partial least squares (PLS)回归

R语言使用ARIMA模型预测股票收益时间序列

R语言中的prophet预测时间序列数据模型

使用R语言进行时间序列（arima，指数平滑）分析

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

R语言阈值模型代码示例

Python 与金融分析：股票数据分析实战

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

R语言GAM（广义相加模型）对物业耗电量进行预测

R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计