更新时间:08-01 上传会员:暖暖大将军
分类:工业大学 论文字数:9564 需要金币:1000个
摘要:当前,随着人类社会前进的需要,以及各方面技术的进步。互联网技术即将迎来了又一次的井喷式发展。在对计算机数据的处理中,检索无疑是不可缺少的重要一环。如何在网络环境下的海量数据中,一次就能寻找到人们所需要的数据,这正是“网络爬虫技术”所要解决的问题。它可以为使用者,定向抓取自己所需要的数据。根据此特点,当前大数据分析、数据挖掘等人们经常听到的新技术名词,无疑是爬虫的新一场演绎。随着国家“互联网+”战略的推进,物联网技术的落地应用,无疑为爬虫技术在更多领域的广度,以及相关探索的深度里开辟出新的途径。
该设计程序不仅对网络爬虫技术的诞生、发展进行了详细的回顾,亦针对爬虫技术当下的发展进行了调研分析。展望技术发展的未来,相信“网络爬虫”也会为人们带来更多的便利。
关键词:爬虫;Python;数据检索
目 录
摘 要
ABSTRACT
第一章 引言-1
1.1 课题背景-1
1.1.1 什么是Python-1
1.1.2 Python对比其他语言的优势-1
1.1.3 什么是网络爬虫-1
1.2 研究目的-1
1.2.1 国内现有状况分析-2
第二章 开发环境以及系统框架概述-3
2.1 系统开发环境以及使用工具概述-3
2.1.1 Python-3
2.1.2 MySql与Navicat-3
2.1.3 avicat Premium介绍-3
2.1.4 Eclipse IDE介绍-3
2.1.5 HTML语言介绍-4
2.2 系统开发框架概述-4
2.2.1 PhantomJS-4
2.2.2 Xpath-4
第三章 可行性分析-6
3.1 技术可行性-6
3.2 经济可行性-6
第四章 需求分析-7
4.1 系统功能模块分析-7
4.2 数据流图及用例图-7
第五章 系统设计与实现-8
5.1 系统爬虫功能设计-8
5.1.1 URL 地址内容剖析-8
5.2 系统数据库操作功能设计-10
5.3 系统数据库设计-10
5.4 程序结构-11
5.5 爬虫的实现-12
5.6 界面展示的实现-14
5.6.1 HTML前端界面展示-14
5.6.2 分页展示-14
5.6.3 处理爬取的数据-搜索查询展示-14
5.6.4 处理爬取的数据-当前界面内的数据搜索-15
5.6.5 Python爬取展示-15
5.6.6 PyCharm console界面展示-16
5.6.7 爬取数据后-16
第六章 系统测试-17
6.1 测试概述-17
6.2 可用性测试-17
6.2.1 数据库操作-17
6.2.2 数据爬取-17
6.3 安全性测试-18
6.4 系统测试结果总结-19
第七章 总结以及展望-20
7.1 总结-20
7.2 展望-20
参考文献-22
致 谢-24
附 录-25