随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。随机森林采用Bagging的思想,所谓的Bagging就是:
(1)每次有放回地从训练集中取出 n 个训练样本,组成新的训练集;
(2)利用新的训练集,训练得到M个子模型;
(3)对于分类问题,采用投票的方法,得票最多子模型的分类类别为最终的类别;对于回归问题,采用简单的平均方法得到预测值。
随机森林以决策树为基本单元,通过集成大量的决策树,就构成了随机森林。决策树是一种树形结构,由结点(node)[其中结点包括内部结点(internal note)和叶结点(leaf node)两种类型] 和 向边(directed edge)组成。可以将决策树看成是一个if-then规则的集合,根据规则,逐次判断条件,最终依据路径归于特定类别。其数学表示可以为给定特征条件下的条件概率分布。
根据需要筛选的样本集的所有特性,随机选择一组特性组合构成决策树,每一次判断都将生成一个新的节点(树枝),最终不同的样本在经过同样的判断集合后,将生成不同高度的决策树。此时通过决策树的三维图像,我们可以直观地看出样本集中的最高点、最低点,并依据不同需要选取众数、均值等数据进行分析。