更新时间:10-25 上传会员:小七想说话
分类:计算机信息 论文字数:9716 需要金币:1000个
摘要:从2012年开始,Web2.0的发展更是突飞猛进,中国网民的参与度和活跃性呈现爆炸式增长,这一情况的出现,与一种新媒体形态的诞生不无关系—微博。新浪微博平台提供一些数据接口(API)供研究人员获取研究数据,API使数据的获取不再难,但是API对用户权限和获取频率做出了一些限制,这也使研究者对微博内容的搜索难度大大增加。对此,本文提供了一种基于Java语言的新浪微博网络爬虫,方便新浪微博数据获取。
基于Java爬虫的新浪微博数据分析系统,采用Java语言编写爬虫,在Windows8系统环境下以IntelliJ-IDEA为开发工具,采用现在流行的Springboot全新框架去简化应用的初始搭建和开发过程,程序通过爬虫模拟登陆网页版新浪微博获取相关数据,通过定时任务解决单IP爬取数据限制,并将爬取的数据保存在本地Mysql数据库中。本文以山东鲁能足球队新浪微博为研究对象,爬取队员微博数据,并进行进一步分析,最终结果采用Html与Echarts结合的网页呈现数据结果。
经过测试,本系统可以有效爬取新浪微博数据,并将数据存入本地数据库Mysql。与以往以Python爬虫不同,本系统采用Java爬虫,通过定时任务解决单IP爬取数据限制,使研究者可以更方便、更高效的利用新浪微博官方API。本系统也通过鲁能足球队球员的新浪微博数据进行了更深的分析,分析出球员的粉丝是否存在网络水军的现象以及球员粉丝还关注其他那些热点博客。
关键词:Java爬虫,Mysql5.7,Springboot,Echarts
目录
摘要
ABSTRACT
第1章 前言- 1 -
1.1研究背景- 1 -
1.2国内外研究现状- 1 -
1.3研究目的和意义- 1 -
1.3.1研究目的- 1 -
1.3.2研究意义- 2 -
1.4全文组织结构- 2 -
第2章 基于Java爬虫新浪微博数据分析系统数据获取与存储- 3 -
2.1Java爬虫的设计- 3 -
2.2数据的获取- 4 -
2.1.1微博内容获取- 4 -
2.1.2用户关系获取- 6 -
2.3数据库的设计- 6 -
第3章 新浪微博数据分析系统的设计- 8 -
3.1新浪微博数据分析系统的设计- 8 -
3.1.1爬取数据的分析- 8 -
3.1.2数据分析结果的呈现- 8 -
3.1.3鲁能足球队实例分析方法以及结果- 9 -
第4章 系统实现- 13 -
4.1主要界面设计- 13 -
第5章 基于Java爬虫的微博数据分析系统测试- 16 -
5.1数据接口的稳定测试- 16 -
5.2总体功能测试- 19 -
第6章 总结与展望- 24 -
6.1总结- 24 -
6.2 展望- 24 -
附 录- 25 -
参 考 文 献- 27 -
致 谢- 28 -