更新时间:01-20 上传会员:螺蛳粉50g
分类:精选论文 论文字数:8629 需要金币:1000个
摘要:在人工智能领域中,机器学习是十分关键的一个分支,经常用于实现各类人工智能问题。现阶段,信用卡异常检测、生物特征识别、医疗诊断、数据挖掘等方面已经开始大量应用机器学习,图像识别、回归分析、聚类和分类是常见的机器学习算法,其中,对于分类问题,二分类是其中非常重要的课题之一。单个分类器的表现往往不尽如人意,因此研究人员提出了集成学习的理念,基于特定的规则组合若干弱学习器,从而得到一个强学习器用于预测,它的预测性能通常优于单一分类器。本文针对居民收入二分类问题,利用已有的训练集数据构造决策树分类器,来预测测试集数据的类别。在该项分类任务中,分为两个类别,一类是“不超过50k”,另一类是“超过50k”。分别利用随机森林算法和AdaBoost算法两种集成学习算法处理Adult数据集,比较两种集成学习方法预测居民收入二分类问题的性能方面存在的差异。根据实验结果发现,AdaBoost算法和随机森林算法都具有较高的分类准确率和AUC值,且AdaBoost算法倾向于得到更高的AUC值和准确率。由此得到,AdaBoost集成学习方法在居民收入二分类问题上的预测性能优于随机森林集成学习方法。
关键词:二分类;集成学习;AdaBoost;随机森林
目录
摘要
Abstract
1 绪 论-1
1.1 背景与意义-1
1.2 国内外研究现状-1
1.3 本文的主要研究内容-1
2 二分类概述-2
2.1 分类的概念-2
2.2 分类的步骤-2
2.3 二分类-2
3 集成学习概述-2
3.1 集成学习的概念-2
3.2 集成学习的分类-3
3.3 常用的基学习器——决策树-3
3.3.1 决策树分类原理-4
3.3.2 决策树学习过程-4
3.3.3 基于信息论的决策树算法-4
3.4 集成学习算法-5
3.4.1 AdaBoost集成学习-5
3.4.2 随机森林集成学习-7
4 集成学习算法的评价指标-7
5 实验分析-9
5.1 实验数据-9
5.2 实验结果-10
5.3 实验结论-11
6 总结与展望-11
参考文献-12
致谢-13
