前言
导读
- 统计学习三要素对理解统计学习方法起到提纲挈领的作用
- 主要讨论监督学习
- 分类问题、标注问题和回归问题都是监督学习的重要问题
- 本书中介绍的统计学习方法包括…。这些方法是主要的分类、标注以及回归方法。他们又可归类为生成方法与判别方法。
-
输入和输出对称为样本
-
注意在介绍输入空间,输出空间等概念的时候,以及这一章的很多部分都会有个帽子,
监督学习中
,监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给的训练数据以及未知测试数据在给定评价标准意义下有最准确的预测。
,理解下这里的假设。
实现统计学习方法的步骤
统计学习方法三要素:模型,策略,算法
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优的模型
- 利用学习的最优模型对新数据进行预测或分析
统计学习方法三要素
模型
模型是什么?
在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。
策略
损失函数与风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数:衡量模型的推理结果与我们实际标签的差距
-
损失函数(loss function)或代价函数(cost function)
损失函数定义为给定输入 X X X的预测值 f ( X ) f(X) f(X)和真实值 Y Y Y之间的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)) -
风险函数(risk function)或期望损失(expected loss)
这个和模型的泛化误差的形式是一样的
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失(期望损失),但是因为 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以前面的用词是期望,以及平均意义下的。这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏,P(x,y)转换成 ν ( X = x , Y = y ) N \frac {\nu(X=x, Y=y)}{N} Nν(X=x,Y=y)更容易直观理解, 但是真实的数据N是无穷的。
-
经验风险(empirical risk)或经验损失(empirical loss)
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i)) Remp(f)=N1∑i=1NL(yi,f(xi))
模型 f f f关于训练样本集的平均mean损失
根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险 -
结构风险(structural risk)
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1∑i=1NL(yi,f(xi))+λJ(f)
J ( f ) J(f) J(f)为模型复杂度, λ ⩾ 0 \lambda \geqslant 0 λ⩾0是系数,用以权衡经验风险和模型复杂度。
常用损失函数
损失函数数值越小,模型就越好
L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
- 0-1损失
L = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases} L={1,Y=f(X)0,Y=f(X) - 平方损失,张量之差的平方
L = ( Y − f ( X ) ) 2 L=(Y-f(X))^2 L=(Y−f(X))2 - 绝对损失,两个值直接相减
L = ∣ Y − f ( X ) ∣ L=|Y-f(X)| L=∣Y−f(X)∣
L ( Y , P ( Y ∣ X ) ) L(Y,P(Y|X)) L(Y,P(Y∣X))
- 对数损失
这里 P ( Y ∣ X ) ⩽ 1 P(Y|X)\leqslant 1 P(Y∣X)⩽1,对应的对数是负值,所以对数损失中包含一个负号,为什么不是绝对值?因为肯定是负的。
L = − log P ( Y ∣ X ) L=-\log P(Y|X) L=−logP(Y∣X)
ERM与SRM
经验风险最小化(ERM)与结构风险最小化(SRM)
- 极大似然估计是经验风险最小化的一个例子
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计 - 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计
算法
模型评估与模型选择
训练误差和测试误差是模型关于数据集的平均损失。
统计学习方法具体采用的损失函数未必是评估时使用的损失函数`,这句理解下。参考下在数据科学比赛中给出的评分标准,与实际学习采用的损失函数之间的关系。
- 训练时使用的损失函数与测试时的损失函数不一定一样
过拟合与模型选择
这部分讲到了最小二乘法,举例:
这个问题中训练数据为 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T=\{(x_1, y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),⋯,(xN,yN)}
模型为
f M ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j f_M(x,w)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j fM(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mwjxj
经验风险最小化策略下
L ( w ) = 1 2 ∑ i = 1 N ( f ( x i , w ) − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N(f(x_i,w)-y_i)^2 L(w)=21i=1∑N(f(xi,w)−yi)2
将模型和训练数据带入到上式得到
L ( w ) = 1 2 ∑ i = 1 N ( ∑ j = 0 M w j x i j − y i ) 2 = 1 2 ∑ i = 1 N ( w ⋅ x i − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N\left(\sum\limits_{j=0}^Mw_jx_i^j-y_i\right)^2=\frac{1}{2}\sum\limits_{i=1}^N(w\cdot x_i-y_i)^2 L(w)=21i=1∑N(j=0∑Mwjxij−yi)2=21i=1∑N(w⋅xi−yi)2
这个问题要求 w = ( w 0 ∗ , w 1 ∗ , ⋯ , w M ∗ ) w=(w_0^*,w_1^*,\cdots,w_M^*) w=(w0∗,w1∗,⋯,wM∗)
对 w w w求偏导令其为零,得到一系列方程,求解可以用梯度下降或者矩阵分解。
求解线性方程组 A x = b Ax=b Ax=b,可以表示为 x = A / b x=A/b x=A/b,问题展开之后可以涉及到矩阵分解。
TODO: 这个例子展开一下
正则化与交叉验证
- 正则化
模型选择的典型方法是正则化 - 交叉验证
另一种常用的模型选择方法是交叉验证- 简单
- S折(K折, K-Fold)[^1]
- 留一法
泛化能力
-
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力
-
统计学习理论试图从理论上对学习方法的泛化能力进行分析
-
学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound)
注意泛化误差的定义,书中有说事实上,泛化误差就是所学习到的模型的期望风险
生成模型与判别模型
监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)
生成方法
generative approach
- 可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
- 收敛速度快, 当样本容量增加时, 学到的模型可以更快收敛到真实模型
- 当存在隐变量时仍可以用
判别方法
discriminative approach
- 直接学习条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)或者决策函数 f ( X ) f(X) f(X)
- 直接面对预测, 往往学习准确率更高
- 可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题
分类问题、标注问题、回归问题
Classification, Tagging, Regression
- 分类系统和标注系统的差异外,没看到其他差异,但实际上这两幅图中对应的输入数据有差异,序列数据的 x i = ( x i ( 1 ) , x i ( 2 ) , … , x i ( n ) ) T x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T xi=(xi(1),xi(2),…,xi(n))T对应了
- 回归问题的产出为 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)
分类和回归其实都是相对而说,分类模型其实也可以用于回归,只是用于任务的不同
在机器学习和深度学习中,问题通常可以分为几种类型,包括分类问题、标注问题和回归问题。以下是对这三种问题的详细解释:
1. 分类问题
定义:分类问题是指将输入数据分配到预定义的类别或标签中。目标是根据输入特征预测离散的输出类别。
特点:
- 输出是离散的,通常是有限个类别。
- 常见的评估指标包括准确率、精确率、召回率和F1-score等。
示例:
- 二分类问题:例如,判断一封邮件是否为垃圾邮件(是/否)。
- 多分类问题:例如,识别图像中的物体(如猫、狗、鸟等)。
应用:
- 图像分类(如手写数字识别、物体检测)
- 文本分类(如情感分析、主题分类)
- 医疗诊断(如疾病分类)
2. 标注问题(序列标注问题)
定义:标注问题是指对输入序列中的每个元素进行标注,通常用于处理序列数据。目标是为每个输入元素分配一个标签。
特点:
- 输入是一个序列,输出是与输入序列长度相同的标签序列。
- 常见的评估指标包括准确率、F1-score等。
示例:
- 命名实体识别(NER):在文本中识别出人名、地名、组织名等。
- 词性标注:为句子中的每个单词分配词性标签(如名词、动词、形容词等)。
- 语音识别:将语音信号转换为文本,并为每个音素或词分配标签。
应用:
- 自然语言处理(如文本分析、信息提取)
- 生物信息学(如基因序列标注)
- 计算机视觉(如图像分割)
3. 回归问题
定义:回归问题是指预测一个连续的数值输出。目标是根据输入特征预测一个实数值。
特点:
- 输出是连续的,可以是任意实数。
- 常见的评估指标包括均方误差(MSE)、均绝对误差(MAE)和R²(决定系数)等。
示例:
- 预测房价:根据房屋的特征(如面积、位置、卧室数量等)预测其市场价格。
- 股票价格预测:根据历史数据预测未来的股票价格。
- 温度预测:根据气象数据预测未来的温度。
应用:
- 财务预测(如销售额、利润预测)
- 经济学(如GDP预测)
- 工程(如材料强度预测)
总结
- 分类问题:将输入分配到离散类别中,输出是类别标签。
- 标注问题:对输入序列中的每个元素进行标注,输出是与输入序列长度相同的标签序列。
- 回归问题:预测连续的数值输出,输出是实数值。
这三种问题在机器学习中有着广泛的应用,选择合适的模型和算法来解决这些问题是机器学习实践中的关键。