基于Map-Reduce的数据采集和存储系统设计与实现.docx
更新时间:07-25 上传会员:小山神

分类:设计作品论文字数:17665 需要金币:1000个

下载此论文

摘要: 随着我国全面进入工业4.0时代，信息技术的迅速发展，对社会的发展和国民生活产生了重要影响。许多行业都向着互联网方向进行转型。各行业数据的不断增长，促使了海量数据的不断产生，相对传统数据处理技术来说，处理的数据量远超其范畴。传统数据处理架构搭建昂贵扩展性差，海量数据如何处理变得迫在眉睫。

本次设计使用云计算模型Hadoop进行平台的搭建，基于分布式计算模块MapReduce对海量数据进行业务分析处理。本平台分为存储客户端，Hadoop集群，查询客户端三部分。首先存储客户端进行数据的自动采集，将采集数据存储至云平台中，之后采集数据在云平台进行处理，最后将处理完的数据传输至外部数据库进行持久化存储。

海量数据采用MapReduce模型进行分布式处理，本平台可根据数据特性进行业务分析处理，从而提升平台可移植性，提升数据采集效率，提高数据存储容量，做到扩展性好，成本低，高可靠性。

本文围绕Hadoop详细设计并搭建数据采集存储云平台。旨在使用Hadoop模型搭建成本较低，可扩展性强的自动化采集存储海量数据的云平台，并测试云平台的可用性。

关键词：海量数据；云计算；MapReduce；分布式计算模型

摘要

Abstract

1 绪论-1

1.1课题背景-1

1.2选题意义与目的-1

1.3与本课题有关的国内外研究现状-2

1.3.1大数据处理发展现状-2

1.3.2云计算平台发展现状-2

1.4平台设计思想-2

1.5系统开发环境-3

2 MapReduce模块原理-4

2.1分布式计算-4

2.2 Hadoop框架-4

2.2.1Hadoop特点-4

2.2.2HDFS概述-4

2.2.3MapReduce原理-5

2.2.4虚拟化技术-6

2.2.5Hadoop相关技术-6

3 基于MapReduce的数据采集云平台架构-7

4 数据采集存储平台需求分析与架构设计-9

4.1平台功能概述-9

4.2 平台集群规划-9

4.3 平台存储架构设计-10

5 云平台的模块设计与实现-11

5.1存储客户端-11

5.1.1功能需求-11

5.1.2技术选型-11

5.1.3模块设计-12

5.2Hadoop集群-12

5.2.1集群概要-12

5.2.2平台数据选型-12

5.2.3平台自动化-13

5.3查询客户端-14

5.3.1功能需求-14

5.3.2技术选型-14

5.3.3模块设计-14

6 基于MapReduce云平台虚拟集群的实现-15

6.1平台业务模块设计-15

6.1.1蔬菜大棚模块-15

6.1.2网站访问模块-17

6.2平台业务模块实现-20

6.2.1蔬菜大棚模块实现-20

6.2.2网站访问模块实现-22

6.3云平台的功能测试-23

6.3.1蔬菜大棚模块测试-23

6.3.2网站访问模块测试-25

6.4云平台自动化构建-30

6.4.1云平台采集端自动化实现-30

6.4.2云平台存储处理端自动化实现-33

6.5云平台可以改进的地方-34

6.5.1云平台性能改善-34

6.5.2云平台数据改善-34

结论-36

参考文献-37

附录A Hadoop集群搭建-38

附录B Hadoop集群测试-46

附录C 云平台MapReduce部分代码-52

致谢-61

上一篇：基于M2M的旅游景区信息采集系统设计.docx
下一篇：基于MATLAB GUI的车辆检测与车牌定位系统设计.docx

找原创论文，从三亿论文网开始 www.eeelw.com

电脑版|

目标：为大家提供3亿可以通过查重系统的原创毕业论文资料

基于Map-Reduce的数据采集和存储系统设计与实现.docx更新时间:07-25 上传会员:小山神

分类:设计作品 论文字数:17665 需要金币:1000个

基于Map-Reduce的数据采集和存储系统设计与实现.docx
更新时间:07-25 上传会员:小山神

分类:设计作品论文字数:17665 需要金币:1000个