更新时间:01-24 上传会员:螺蛳粉50g
分类:精选论文 论文字数:8282 需要金币:1000个
内容摘要:集成学习是被国际机器学习界的权威Dietterich列为机器学习四大研究方向之首,是一种被广泛关注的一种统计建模方法。集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。经典的集成学习算法分为两类:Bagging(袋装法)和Boosting(提升法)。本文以Bagging的特例随机森林,Boosting的特例XGBoost、GBDT进行人口普查数据的比较研究,运用Blending进行融合,最后交叉验证比较效果。
关键词:集成学习; 随机森林; 梯度提升树;Xgboost; Blending
目录
内容摘要
Abstract
1引言-1
2整体架构构建-2
2.1人口普查数据集-2
2.1.1属性描述-2
2.1.2数据观察-2
2.1.3特征预处理-4
2.2随机森林模型的构建-6
2.3梯度提升树模型的构建-7
2.4 XGBOOST模型的构建-7
2.5 Blending模型融合-8
3建模分析-8
3.1调参标准的选择-8
3.2随机森林参数调整过程-9
3.2梯度提升树参数调整过程-10
3.3 XGboost参数调整过程-11
3.4 Blend模型融合-12
4总结-12
参 考 文 献-14
致谢-15
附录-16