更新时间:03-28 上传会员:abc鞠凌青
分类:计算机信息 论文字数:7474 需要金币:1000个
摘要:本文介绍了一个基于Python及其相关技术的爬虫程序。程序的主要内容在不违反QQ空间规则和法律法规下获取一些QQ用户的QQ空间的个人信息、日志、说说等方面的数据,然后对数据进行整理、存储、展示,最后根据数据分析可能得到一些有价值的内容,例如统计好友发表说说的时间来分析用户的活跃时间,统计发表说说的工具来分析各个工具的使用量和流行趋势,统计故乡、现居地省份来分析该用户的故乡、现居地等等。
程序采用面向对象的方法实现,以Eclipse+Python+Mongodb为开发平台。系统运用Selenium、PhantomJS技术模拟登陆获取cookies,使用requests发送请求得到网页,使用正则表达式、BeautifulSoup解析、提取网页信息,综合使用抓包工具Httpfox、Fiddler和火狐浏览器自带的开发者工具分析QQ空间网页数据源。
本论文依照软件工程的开发流程,对系统的分析、设计和实现进行了阐述。在系统分析阶段,进行了系统概要设计、数据库的设计,设计了系统框架和功能模块。
关键词:QQ空间;爬虫;Python;Mongodb数据库
目录
摘要
Abstract
1 概述-2
1.1 开发背景-2
1.2 课题简介-2
1.3 项目设计目标-2
1.4 系统功能概述-3
2 系统分析-3
2.1 需求分析-3
2.1.1 功能需求分析-3
2.1.2 非功能需求分析-4
2.2 技术分析-4
2.3 系统运行环境分析-5
3 概要设计-6
3.1系统功能模块设计-6
3.2 数据库设计-6
4 系统详细设计-9
4.1 系统结构-9
4.1.1系统模块说明-9
4.1.1文件组织说明-10
4.2 系统功能模块详细设计-11
5 系统测试与运行-13
5.1 测试方法-13
5.2 运行过程-13
5.3 结果展示-16
5.4 发现的问题-20
结 论-21
参 考 文 献-22
致 谢-23