更新时间:06-11 上传会员:紫色烟火
分类:计算机信息 论文字数:11385 需要金币:1000个
摘要:随着商业网站的用户量的不断增长,用户的信息数据量和网站访问的数据量也在增加。同时,商业网站等盈利性站点需要分析用户的行为及爱好,以提高网站服务的效率和个性化程度,从而为用户提供更满意的服务,使利润得到最大化。
如今使用传统方法已经无法解决日趋庞大的数据量,所以本论文将阐述如何采用目前主流的大数据技术:以Hadoop和Spark来实现用户的行为分析,同时涵盖了Spark Core、 Spark SQL 和 Spark Streaming 这三个技术框架中的技能点和性能优化点。系统主要针对电商网站的用户,基于分布式快速处理用户产生的庞大数据。系统主要分为用户访问Session分析模块、热门产品离线统计分析模块和广告流量实时统计分析模块。
用户访问Session分析模块主要是对用户访问 session 进行统计分析,使用者可以通过本模块得到针对特定用户群体的分析结果数据,从而可以针对性的对特定的用户制定相关的服务,主要使用Spark Core实现。热门产品离线统计模块主要实现每天统计出各个区域的top3热门商品,然后进行离线统计任务的定时调度,使用者可以通过本模块得到最受用户欢迎的商品信息,从而可以制定相关的商品活动,主要使用Spark SQL实现。广告流量实时统计模块负责实时统计网站的广告流量,包括广告展现流量和广告点击流量,通过本模块可以及时让公司的管理者可以实时地掌握到公司各种广告的投放效果,同时减少恶意刷广告的行为,以便于后期持续地对公司的广告投放相关的战略和策略,进行调整和优化,从而获得最好的广告收益,主要采用Spark Streaming实现。
关键词:大数据;Hadoop;Spark;用户行为分析
目录
摘要
Abstract
1绪论-1
1.1 系统开发背景-1
1.2 系统开发目标-1
1.3相关技术简介-1
1.3.1 Hadoop 简介-1
1.3.2 Spark 简介-3
1.3.3开发环境介绍-3
1.3 论文组织结构-4
2系统分析-5
2.1系统可行性分析-5
2.1.1技术可行性分析-5
2.1.2操作可行性分析-5
2.1.3经济可行性分析-5
2.2系统需求分析-5
2.2.1 系统功能需求分析-5
2.2.2 系统性能需求分析-8
3系统设计与实现-9
3.1 系统总体设计-9
3.2 数据收集模块设计与实现-9
3.3 数据分析计算模块设计与实现-10
3.3.1用户访问seesion设计与实现-10
3.3.2 热门商品离线统计设计与实现-12
3.3.3 广告流量实时点击统计设计与实现-12
3.4 系统数据库设计-13
4系统测试-20
4.1测试目标与测试内容-20
4.1.1 测试的目标-20
4.1.2 测试的内容-20
4.2 改进方案-22
结 语-24
参 考 文 献-25
致 谢-26