更新时间:01-26 上传会员:螺蛳粉50g
分类:精选论文 论文字数:13041 需要金币:1000个
摘要:随着信息爆炸时代的发展和统计软件的开发使用,数据对企业的未来发展起到越来越重要的作用,同时,大数据时代对人类的数据控制能力提出了新的挑战,也为人们获得更深刻、更全面的洞见提供了前所未有的空间和潜力。伴随着企业对数据的重视,R语言以其自身优势迅速获得数据分析人员的喜爱。但是数据异常值的存在不利于人们对数据的开发利用,甚至会严重影响数据的价值和使用效率。这篇论文从数据分析的角度出发,总结了对数据异常值的常见诊断方法,同时通过r语言数据分析软件给出了数据异常值诊断的分析步骤。最后部分是借助案例实例,对各种方法的实际应用提供了具体的讲解分析,并且给出了可视化的分析结果,做到了图文并茂。这篇文章结合了R语言和数据异常值诊断,可以为广大数据工作者提供一些数据利用过程的参考。
关键词:R语言;异常值;诊断方法;箱线图;OutliersO3
目录
摘要
Abstract
1.导论-1
1.1研究的背景、意义及目的-1
1.2研究现状-2
1.3研究思路及主要内容-3
1.4研究方法和创新点-3
2统计数据异常值的诊断方法-5
2.1异常值及形成原因-5
2.2简单统计方法识别异常值-5
2.3拉依达原则识别异常值-6
2.4箱线图识别异常值-8
2.5 k-means聚类识别异常值-9
2.6 LOF算法识别异常值-10
3 R语言对统计数据异常值的诊断-12
3.1 R语言及其优点-12
3.2 R语言利用简单统计方法识别异常值-13
3.3 R语言利用拉依达原则识别异常值-14
3.4 R语言利用箱线图识别异常值-14
3.5 R语言利用kmeans聚类识别异常值-15
3.6 R语言利用lof算法识别异常值-16
3.7 R语言利用OutliersO3函数包比较识别异常值-17
4.R语言案例分析-17
4.1 应用简单统计方法识别异常值-17
4.2 应用拉依达原则识别异常值-19
4.3 应用箱线图识别异常值-20
4.4 应用k-means聚类方法识别异常值-22
4.5 运用LOF算法识别异常值-23
4.6 运用OutliersO3函数包识别异常值-25
5 总结与展望-26
参考文献
致谢