使用冗余预测变量构建数据集并使用lasso和 glm
识别这些预测变量 。
使用lasso正则化去除冗余预测变量
创建一个X
包含 100 个观测值和 10 个预测变量的随机矩阵 。y
仅使用四个预测变量和少量噪声创建正态分布因变量 。
默认值 randn ; X*权重 + randn*0.1; % 小的附加噪音
执行lasso
正则化。
lasso
求第 75 个Lambda
值 的系数向量 B
。
rng % 用于重现性 randn exp(X)*weights + 1
构建数据的泊松回归模型的交叉验证lasso
正则化。
检查交叉验证图以查看Lambda
正则化参数的效果 。
Plot('CV'); legend
FitInf find(B
FitInf min1fnd(B)
ynm = (y>=80);
将数据划分为训练集和测试集。
rng default % 设置可重复性的种子 Xi = X(iTain,:); yran = yBinom yTe = yBinom
对训练数据进行 3 折交叉验证,对广义线性模型回归执行lasso
正则化。假设 中的值 y
是二项分布的。选择对应于Lambda
最小预期偏差的模型系数 。
lasso(Trn,Tain,'binomial','CV',3); ince = FitIiance; FitIept
confuhart