更新时间:04-26 上传会员:徐小佳
分类:管理学院 论文字数:8103 需要金币:1000个
摘要:本文是基于Python的数据获取及分析研究。首先对某网站的单个页面,通过使用Requests库和BeautifulSoup库获取其相关数据,保存为Excel文件,使用Excel的图表功能对数据进行分析。然后再对同一网站的多个网页,通过使用Scrapy库获取其相关数据,再结合Numpy库和Pandas库对获取到的数据进行分析。最后对这两个实例进行分析总结,从而构想出更好的基于Python的数据获取及分析研究的方法,使我们能够获得更加有价值意义的数据信息。
关键词:数据挖掘; 数据分析; Python
目录
摘要
ABSTRACT
1.-绪论-1
1.1 研究背景-1
1.2 研究目的和意义-1
1.3 开发环境及技术-1
1.4 关键技术介绍-2
1.4.1 Python简介-2
1.4.2 Requests库、BeautifulSoup库、Numpy库、Matplotlib库简介-2
1.4.3 Scrapy框架-2
2.-使用Requests库和BeautifulSoup库的Python爬虫-4
2.1 爬虫的运行原理-4
2.2 数据源的选择及分析-4
2.3 程序实现-5
2.3.1导入函数库-5
2.3.2 getHTMLText函数-5
2.3.3 fillUnivList函数-6
2.3.4 printUnivList函数-7
2.3.5 main函数-8
2.4 结果分析-9
2.4.1生成的结果-9
2.4.2结果分析-9
3. 使用Scrapy框架的Python爬虫-10
3.1 爬虫的运行原理-10
3.2 数据源的选择及分析-11
3.3 程序实现-11
3.3.1 parse函数-11
3.3.2 parse_paiming函数-12
3.4 结果分析-13
4. 结束语-14
4.1 对成果的总结-14
4.2 对数据挖掘的展望-14
参考文献-15
致谢-16