R语言k折交叉验证-天翼云

R语言k折交叉验证

2023-02-07 10:34:04 阅读次数：606

“机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。”

k折交叉验证

K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K次的结果或者使用其它指标，最终得到一个单一估测。

这个方法的优势在于，保证每个子样本都参与训练且都被测试，降低泛化误差。其中，10折交叉验证是最常用的。

实例

在线性分类器与性能评价(R语言)中，我们将数据集随机抽取70%作为训练集，剩下30%作为测试集，通过线性回归的方法进行预测，通过ROC和AUC评价模型效果。现在，我们使用k折交叉验证的方法，选取最优的训练集和测试集，建立线性分类器并评价模型效果。

1、数据导入并分组。导入数据，根据标签列将数据分成10份。

2、选取最优训练集与测试集。构建for循环，得到十次交叉验证预测的AUC值。并纪录取值最大的一组，作为最优的训练集与测试集划分。

10次auc取值结果如下：

3、构建分类器并判断模型效果。根据前一步的结果，使用最优划分构建线性分类器并预测。绘制出测试集的ROC曲线。

R语言k折交叉验证_R语言教程

线性分类器与性能评价(R语言)中随机选取训练集和测试集，最终测试集的AUC值仅为0.755，而本次我们通过k折交叉验证选取训练集和测试集，测试集AUC值达到0.936，可以看出模型效果提升显著。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

R语言k折交叉验证

R语言k折交叉验证

相关文章

【大数据部落】r语言多均线股票价格量化策略回测

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

R语言分段回归数据分析案例报告

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

R语言如何找到患者数据中具有差异的指标？（PLS—DA分析）

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究|附代码数据

R语言实现偏最小二乘回归法 partial least squares (PLS)回归

R语言阈值模型代码示例

R语言CRAN软件包Meta分析

作者介绍

最新文章

【大数据部落】R语言如何使用rjags R2jags来建立贝叶斯模型

【大数据部落】r语言多均线股票价格量化策略回测

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言区间数据回归分析

R语言如何找到患者数据中具有差异的指标？（PLS—DA分析）

R语言分段回归数据分析案例报告

热门文章

R语言中实现层次聚类模型

R语言实现偏最小二乘回归法 partial least squares (PLS)回归

R语言使用ARIMA模型预测股票收益时间序列

R语言中的prophet预测时间序列数据模型

R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计

ggplot2如何在R语言中绘制表格

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计

R语言如何找到患者数据中具有差异的指标？（PLS—DA分析）

r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

R语言中实现层次聚类模型

R语言互联网金融下的中国保险业数据分析