基于Python的豆瓣电影爬虫软件的设计与实现.doc
更新时间:06-11 上传会员:紫色烟火

分类:计算机信息论文字数:8456 需要金币:1000个

下载此论文

摘要：在如今信息大爆炸的年代，互联网已成为绝大多数信息的载体，如何有效的对这些信息加以提取并利用成为了一种挑战，现在绝大多数的搜索引擎是通过网络爬虫技术实现的，通过用户查取的部分关键字来返回用户所需要的信息，随着互联网的不断发展，人们对于获取信息的需求也逐渐增大，不再只是简单的一个两个数字，由此针对互联网的爬虫的作用意义重大。

本文采用Python和Scrapy为基础，针对豆瓣电影爬取电影信息，在学习的同时逐步探索出一个基于Python，Scrapy的互联网爬虫，实现对豆瓣电影的信息的爬取。论文介绍了互联网爬虫的技术现状以及运用的主要技术，以及如何提取关键信息以及数据的清洗和数据的存储，在对数据存储之后，进行简单的统计，运用开源框架Echarts实现对数据的可视化显示。从不同的方面分析当前电影信息所反映的内容。

关键词：爬虫；数据；互联网

摘要

Abstract

1 绪论-1

1.1 系统开发背景-1

1.2 国内外技术现状-1

1.3 论文主要内容-2

1.4 文章整体结构-2

2-爬虫工作的原理及其相关技术的介绍-3

2.1 爬虫工作原理-3

2.1.1 基本结构及工作流程-3

2.1.2 常见的爬虫策略-3

2.2 其他技术介绍-4

2.2.1 Scrapy框架-4

2.2.2 Scrapy数据流介绍-5

2.2.3 xpath介绍-5

2.2.4数据存储-5

2.2.5 可视化显示-6

2.2.6 Robot协议-6

3 系统实现-7

3.1 总体设计-7

3.1.1爬取内容简介-7

3.1.2模块设计-7

3.2 系统实现-7

3.2.1预设规则模块-7

3.2.2数据抓取模块-8

3.3.3数据处理模块-10

4 成果演示与数据分析可视化-12

4.1 运行爬虫文件-12

4.2 保存数据-12

4.3 数据分析可视化-14

结论-16

参考文献-18

致谢-19

上一篇：基于PHP技术的研究生招生管理系统.doc
下一篇：基于Python的人脸识别系统的设计与实现.docx

找原创论文，从三亿论文网开始 www.eeelw.com

电脑版|

目标：为大家提供3亿可以通过查重系统的原创毕业论文资料

基于Python的豆瓣电影爬虫软件的设计与实现.doc更新时间:06-11 上传会员:紫色烟火

分类:计算机信息 论文字数:8456 需要金币:1000个

基于Python的豆瓣电影爬虫软件的设计与实现.doc
更新时间:06-11 上传会员:紫色烟火

分类:计算机信息论文字数:8456 需要金币:1000个