变量选择是高维统计建模的重要组成部分。许多流行的变量选择方法,例如 LASSO,都存在偏差。带平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题,同时还保留了稀疏性的连续惩罚。
惩罚最小二乘法
一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式是
是设计矩阵,
是系数的向量,
.
作为特殊情况,请注意 LASSO 对应的惩罚函数为 . 回想下面这些单变量惩罚的图形形状。
有点奇怪的是,SCAD 惩罚通常主要由它的一阶导数定义 . 它的导数是
等于
, 否则为 0。
我们可以通过分解惩罚函数在不同数值下的导数来获得一些洞察力 λ:
),惩罚对于 β 是恒定的。换句话说,在 β 变得足够大之后,β 的较高值 不会受到更多的惩罚。这与 LASSO 惩罚形成对比,后者具有关于 |β|的单调递增惩罚:
),惩罚是二次的。
分段定义,pλ(β) 是
def scad:
s_lar
iudic =np.lgicand
iscsat = (vl * laval) < np.abs
lie_prt = md_val * pab* iliear
return liprt + urtirt + cosaat
使用 SCAD 拟合模型
拟合惩罚最小二乘模型(包括 SCAD 惩罚模型)的一种通用方法是使用局部二次近似。这种方法相当于在初始点 β0 周围拟合二次函数 q(β),使得近似:
-
- 关于 0 对称,
- 满足 q(β0)=pλ(|β0|),
- 满足 q ′ (β0) = p′λ (| β0 |)。
因此,逼近函数必须具有以下形式
为了完整起见,让我们来看看解决方案。重新排列第二个方程,我们有
因此,完整的二次方程是
将 SCAD 惩罚的二次逼近代入完整的最小二乘目标函数,优化问题变为:
巧妙地,我们可以注意到这是一个岭回归问题,其中
回想一下, 岭回归 是