批量大数据处理系统的分析与应用.docx
更新时间:01-26 上传会员:神笔马良

分类:计算机信息论文字数:17292 需要金币:1000个

下载此论文

摘要：随着互联网，物联网，嵌入式技术的飞速发展，人与人，人与物，物与物之间通过网络连接起来，使我们的行为语言变得数字化，产生大量的数据，这些数据有结构多样，数量巨大，价值密度低，价值大的特点，被称为大数据。这些数据都蕴藏着巨大的价值，但是现有的数据处理方式已经不能满足大数据的处理要求了。

Hadoop的诞生，使批量大数据存储与分析变得容易且高效，因为Hadoop在处理数据时采用HDFS来分布式管理数据的存储，提供一套机制实现数据的分布存储，使磁盘的利用率最大化；采用MapReduce并行计算框架使计算的代码在不同的机器上并行运行，并将结果统一，使CPU的利用率最大化。

本文主要介绍批量大数据的产生，大数据处理系统的发展与应用，并以一种流行的批量大数据处理系统Hadoop进行分析与应用。分析Hadoop的关键组件HDFS与MapReduce。通过对Hadoop系统的学习，设计一种基于Hadoop框架的网站日志文件处理模型，将生成的网络日志文件上传到HDFS，利用MapReduce进行分析得到网页的访问量，将得到的结果通过sqoop导出到Mysql关系型数据库中。通过搭建Hadoop的集群实验环境来验证此系统的可用性并分析实验结果。

关键词：批量大数据 Hadoop 网络日志分析

摘要

Abstract

1绪论-1

1.1研究目的和意义-1

1.2研究背景-1

1.2.1国外现状-1

1.2.2国内现状-2

1.3研究内容-2

1.4文章结构-3

2批量大数据处理系统及其核心技术-3

2.1大数据-3

2.2批量大数据-4

2.3批量大数据处理系统-4

2.4批量大数据处理系统的应用场景-4

2.5 HDFS详解-5

2.5.1 HDFS设计思想-5

2.5.2 HDFS块-6

2.5.3 HDFS 组件-6

2.5.4 HDFS存取流程-8

2.5.5 HDFS编程-8

2.6 MapReduce详解-9

2.6.1 MapReduce 设计思想-9

2.6.2 MapReduce 组件-10

2.6.3 MapReduce 作业流程-10

2.6.4 MapReduce的实现-12

2.7 本章小结-13

3 Hadoop批量大数据处理系统应用设计-13

3.1 设计背景-13

3.2 功能分析-14

3.3 日志格式分析-14

3.4 流程图-15

3.5 功能模块实现分析-15

3.5.1文件上传模块-15

3.5.2 数据统计分析模块-16

3.5.3 数据导出模块-19

3.6 本章小结-19

4搭建Hadoop批量大数据处理系统并分析实验结果-20

4.1 实验环境搭建-20

4.1.1硬件环境-20

4.1.2软件环境-20

4.1.3 Hadoop集群伪分布式搭建方法-21

4.1.4 Hadoop集群分布式搭建方法-24

4.2实验结果及分析-26

4.2.1测试Hadoop集群的可用性： wordcount-26

4.2.2测试网站日志处理系统可用性-28

4.2.3测试网站日志处理系统性能-31

4.3 本章小结-32

5总结与展望-33

5.1 论文总结-33

5.2 对未来的展望-33

致谢-34

参考文献-35

找原创论文，从三亿论文网开始 www.eeelw.com

电脑版|

目标：为大家提供3亿可以通过查重系统的原创毕业论文资料

批量大数据处理系统的分析与应用.docx更新时间:01-26 上传会员:神笔马良

分类:计算机信息 论文字数:17292 需要金币:1000个

批量大数据处理系统的分析与应用.docx
更新时间:01-26 上传会员:神笔马良

分类:计算机信息论文字数:17292 需要金币:1000个