更新时间:06-11 上传会员:紫色烟火
分类:计算机信息 论文字数:8456 需要金币:1000个
摘要:在如今信息大爆炸的年代,互联网已成为绝大多数信息的载体,如何有效的对这些信息加以提取并利用成为了一种挑战,现在绝大多数的搜索引擎是通过网络爬虫技术实现的,通过用户查取的部分关键字来返回用户所需要的信息,随着互联网的不断发展,人们对于获取信息的需求也逐渐增大,不再只是简单的一个两个数字,由此针对互联网的爬虫的作用意义重大。
本文采用Python和Scrapy为基础,针对豆瓣电影爬取电影信息,在学习的同时逐步探索出一个基于Python,Scrapy的互联网爬虫,实现对豆瓣电影的信息的爬取。论文介绍了互联网爬虫的技术现状以及运用的主要技术,以及如何提取关键信息以及数据的清洗和数据的存储,在对数据存储之后,进行简单的统计,运用开源框架Echarts实现对数据的可视化显示。从不同的方面分析当前电影信息所反映的内容。
关键词:爬虫;数据;互联网
目录
摘要
Abstract
1 绪论-1
1.1 系统开发背景-1
1.2 国内外技术现状-1
1.3 论文主要内容-2
1.4 文章整体结构-2
2-爬虫工作的原理及其相关技术的介绍-3
2.1 爬虫工作原理-3
2.1.1 基本结构及工作流程-3
2.1.2 常见的爬虫策略-3
2.2 其他技术介绍-4
2.2.1 Scrapy框架-4
2.2.2 Scrapy数据流介绍-5
2.2.3 xpath介绍-5
2.2.4数据存储-5
2.2.5 可视化显示-6
2.2.6 Robot协议-6
3 系统实现-7
3.1 总体设计-7
3.1.1爬取内容简介-7
3.1.2模块设计-7
3.2 系统实现-7
3.2.1预设规则模块-7
3.2.2数据抓取模块-8
3.3.3数据处理模块-10
4 成果演示与数据分析可视化-12
4.1 运行爬虫文件-12
4.2 保存数据-12
4.3 数据分析可视化-14
结 论-16
参 考 文 献-18
致 谢-19