基于Python的网络爬虫程序设计与实现.docx
更新时间:05-12 上传会员:翩翩起舞

分类:理工论文论文字数:6716 需要金币:1000个

下载此论文

摘要当下时代，信息技术高速发展，网络已经是人们不可缺少的生活元素，越来越多的行业都已经和网络接轨。我们每天都需要在网上寻找所需的信息，通过百度、谷歌等搜索引擎，输入关键字，找到所需的信息。但这些通用的搜索引擎，往往不能根据自己的需要找到合适的数据，因而网络爬虫技术成为研究的热点。

本文采用Python语言，研究了网络爬虫的实现。第一章介绍了研究的背景、意义；第二章讲述了网络爬虫的基本工作原理，常见的网络爬虫的策略，Cookie的基本用法及其在网络爬虫中的使用，Robot协议的用法；第三章论文论述了系统的总体设计，系统实现的各个模块：前置设置模块、网页抓取模块、后置数据处理模块等；第四章对系统进行了测试，采用本文的网络爬虫系统，抓取了相关网页。测试结果表明，本文所实现的系统能够实现抓取功能。

本文所实现的网络爬虫还比较简单，对于数据的抓取及存储还有很多需要改进的地方，希望下一步能够将这些问题改正。

关键字：网络爬虫；Cookie；Robot；Python

摘要

Abstract

1-绪论-1

1.1-研究背景-1

1.2-国内外爬虫研究概述-1

1.3-研究意义-2

1.4-本文研究目标-2

1.5-论文组织结构-2

2-网络爬虫的工作原理及技术-4

2.1-工作原理-4

2.2-常见的策略-6

2.3-Cookie的作用及介绍-8

2.4-Robot协议-8

3-基于Python网络爬虫设计于实现-10

3.1-系统总体设计-10

3.2-系统实现-10

3.2.1-前置规则预设设置模块-10

3.2.2-网页抓取模块-10

3.2.3-后置数据处理模块-13

4-系统测试-15

4.1-运行环境-15

4.2-数据抓取结果与分析-15

5-总结与展望-16

参考文献-17

上一篇：混沌时间序列的非线性去噪方法研究.doc
下一篇：基于禀赋效应的公共品博弈问题研究.docx

找原创论文，从三亿论文网开始 www.eeelw.com

电脑版|

目标：为大家提供3亿可以通过查重系统的原创毕业论文资料

基于Python的网络爬虫程序设计与实现.docx更新时间:05-12 上传会员:翩翩起舞

分类:理工论文 论文字数:6716 需要金币:1000个

基于Python的网络爬虫程序设计与实现.docx
更新时间:05-12 上传会员:翩翩起舞

分类:理工论文论文字数:6716 需要金币:1000个