什么是机器学习
从大量现象中提取反复出现的规律与模式。这一过 程在人工智能中的实现就是机器学习。
机器学习是计算机基于数据构建概率统计 模型并运用模型对数据进行预测与分析的学科。
解决什么问题
-
问题不能是完全随机的,需要 具备一定的模式;
-
问题本身不能通过纯计算的方法解决;
-
有大量的数据可供使 用。
机器学习的任务,就是使用数据计算出与目标函数最接近的假设,或者说拟合出最精确的模型 。
在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。被描述的性 质叫作属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实 例。
根据线性代数的知识,数据的不同属性之间可以视为相互独立,因而每个属性都代表了一个 不同的维度,这些维度共同张成了特征空间。
每一组属性值的集合都是这个空间中的一个点,因而每个实例都可以视为特征空间中的一个 向量,即特征向量。
预测问题可以分为以下三类。
分类问题:输出变量为有限个离散变量,当个数为 2 时即为最简单的二分类问题;
回归问题:输入变量和输出变量均为连续变量;
标注问题:输入变量和输出变量均为变量序列。
根据训练数据是否具有标签信息,可以将机器学习的任务分成以下三类。
监督学习:基于已知类别的训练数据进行学习;
无监督学习:基于未知类别的训练数据进行学习;
半监督学习:同时使用已知类别和未知类别的训练数据进行学习。
误差
误差性能就成为机器学习的重要指标之一。
在机器学习中,误差指分类错误的样本占全部样本的比例。
误差可以进一步分为训练误差和测试误差两类。
-
训练误差指的是学习器在训练数据集上的误 差,也称经验误差;
-
测试误差指的是学习器在新样本上的误差,也称泛化误差。
训练误差描述的是输入属性与输出分类之间的相关性,能够判定给定的问题是不是一个容易 学习的问题。测试误差则反映了学习器对未知的测试数据集的预测能力,是机器学习中的重 要概念。
过拟合出现的原因通常是学习时模型包含的参数过多,从而导致训练误差较低但测试误差较 高。
与过拟合对应的是欠拟合。如果说造成过拟合的原因是学习能力太强,造成欠拟合的原因就 是学习能力太弱,以致于训练数据的基本性质都没能学到。
常用算法:
线性回归
朴素贝叶斯
决策树
支持向量机