更新时间:05-12 上传会员:翩翩起舞
分类:理工论文 论文字数:6716 需要金币:1000个
摘要 当下时代,信息技术高速发展,网络已经是人们不可缺少的生活元素,越来越多的行业都已经和网络接轨。我们每天都需要在网上寻找所需的信息,通过百度、谷歌等搜索引擎,输入关键字,找到所需的信息。但这些通用的搜索引擎,往往不能根据自己的需要找到合适的数据,因而网络爬虫技术成为研究的热点。
本文采用Python语言,研究了网络爬虫的实现。第一章介绍了研究的背景、意义;第二章讲述了网络爬虫的基本工作原理,常见的网络爬虫的策略,Cookie的基本用法及其在网络爬虫中的使用,Robot协议的用法;第三章论文论述了系统的总体设计,系统实现的各个模块:前置设置模块、网页抓取模块、后置数据处理模块等;第四章对系统进行了测试,采用本文的网络爬虫系统,抓取了相关网页。测试结果表明,本文所实现的系统能够实现抓取功能。
本文所实现的网络爬虫还比较简单,对于数据的抓取及存储还有很多需要改进的地方,希望下一步能够将这些问题改正。
关键字:网络爬虫;Cookie;Robot;Python
目录
摘要
Abstract
1-绪论-1
1.1-研究背景-1
1.2-国内外爬虫研究概述-1
1.3-研究意义-2
1.4-本文研究目标-2
1.5-论文组织结构-2
2-网络爬虫的工作原理及技术-4
2.1-工作原理-4
2.2-常见的策略-6
2.3-Cookie的作用及介绍-8
2.4-Robot协议-8
3-基于Python网络爬虫设计于实现-10
3.1-系统总体设计-10
3.2-系统实现-10
3.2.1-前置规则预设设置模块-10
3.2.2-网页抓取模块-10
3.2.3-后置数据处理模块-13
4-系统测试-15
4.1-运行环境-15
4.2-数据抓取结果与分析-15
5-总结与展望-16
参考文献-17