更新时间:08-01 上传会员:暖暖大将军
分类:工业大学 论文字数:12796 需要金币:1000个
摘要:随着互联网信息科技的不断更新迭代以及我国市场经济稳步向前发展,软件行业的Web架构技术已经逐渐的成熟,并且已经在很多行业得到了应用,同时网络的爬虫技术也随之技术的迭代逐渐的发展起来。本文研究主要通过Python爬虫来获取网页文档,通过不断的深入了解和研究整个网络爬虫的基本框架和基于Python的网络爬虫技术,并且进行了实验的操作,分别对目标网页的网络资源进行相应的抓取,通过抓取过来的网络资源进行资源的特征识别和模式分析,并且,制定相应的网络搜索决策,将目标抓取的资源进行规定的存储和种类的划分,通过Python的语言代码对网络的资源进行相关的抓取,并把抓取下来的资源进行文档的归类并且存储起来,以便下一次的查询和检索,并且把所抓取来的数据进行统计和分析,生成可视化数据报告,供用户浏览。明确要抓取的网页资源的数据模型和它的特征模式,并且通过这些特征去完善抓取算法,对网页的进行抓取,抓取回来的结果做进一步的分析,并且,在原有的基础算法上进行相关的迭代,完善整个爬虫框架体系。
关键词:网络爬虫;数据爬取;数据分析;网页分析算法
目 录
摘 要
ABSTRACT
第一章 绪论-1
1.1 研究背景-1
1.2 研究内容-1
1.3 研究意义-2
第二章 网络爬虫概述-3
2.1 通用爬虫工作原理及关键技术概述-3
2.1.1 抓取网页-3
2.1.2 数据存储-5
2.2.3 预处理-5
2.2.4 提供检索服务-5
2.2.5 通用网络爬虫的局限性-6
2.2 聚焦爬虫工作原理及关键技术概述-6
2.2.1 抓取目标描述-7
2.2.3 网页搜索策略-8
2.3.4 广度优先搜索策略-8
2.3.5 最佳优先搜索策略-9
第三章 网页分析算法-10
3.1 基于网络拓扑的分析算法-10
3.1.1 网页(Webpage)粒度的分析算法-10
3.1.2 网站粒度的分析算法-10
3.1.3 网页块粒度的分析算法-11
第四章 数据采集与数据分析-12
4.1网页文件结构分析-12
4.2 Beautiful Soup库-13
4.3数据清洗-14
4.4分析每章网页结构-17
3.5整本小说下载-19
第五章 结论与展望-23
5.1研究结论-23
5.1.1基于爬虫技术进行网络文档的爬取-23
5.1.2爬取网页信息必须深入研究文本特征-23
5.2未来展望-23
5.2.1工作原理更加先进-23
5.2.2搜索范围更加聚焦-23
5.2.3搜索功能更加完备-24
致谢-25
参考文献-26
附录-28