Map-Reduce 分布式聚类 分布式数据预处理 join操作
- 格式:doc
- 大小:33.50 KB
- 文档页数:4
Map-Reduce论文:基于Map-Reduce分布式日志信息处理研究与实现
【中文摘要】随着互联网的高速发展,电子商务网站每天需要处理的日志信息多达几terabyte。如何廉价并且高效地去除日志中的暂时无用信息、提取日志中有用信息是目前我们面临的一个困难。论文基于Map-Reduce并行处理平台详细介绍了如何处理海量日志信息,经过日志信息预处理、用户聚类等处理过程,最终根据用户的访问商品类情况对用户进行了聚类。通过使用hadoop云计算平台有效地避免了传统单机处理大规模web日志数据运行时间过长或者运行不出结果的问题,低廉并且高效实现了大规模原始数据的预处理及聚类。本文以web用户访问商品的日志信息为数据源。它使用了Map-Reduce 思想,该思想共分为两个阶段,Map阶段信息提取; reduce阶段进行数据求和。详细介绍了并实现了基于Map-Reduce超大文件数据间的join操作及改进型join操作。然后对上面的处理结果建立向量空间模型,形成了用户访问类向量空间模型。在聚类研究过程中,将SOM的自适应思想与模糊聚类思想结合在一起,在Map-Reduce平台上实现。由于传统模糊聚类具有运行时间长、运算复杂等特征,所以当数据量大的时候往往无法得出结果。论文将自适应的思想应...
【英文摘要】With the high development of Internet,
e-commerce websites now routinely have to work with log datasets which are up to a few terabytes in size. How to remove
messy data timely with low cost and find out useful information is a problem we have to face.This Paper is based on Map-Reduce parallel processing platform. It introduces the processing of log information from raw data to final model and implement data extraction, clustering algorithm for a huge amount of data. Finally, we can cluster the users wh...
【关键词】Map-Reduce 分布式聚类分布式数据预处理 join操作
【英文关键词】map-reduce distributed data mining data pre-processing join operation
【索购全文】联系Q1:138113721 Q2:139938848
【目录】基于Map-Reduce分布式日志信息处理研究与实现
摘要4-5ABSTRACT5第一章绪论8-14 1.1 课题来源及意义8-9 1.2 与本课题有关的国内外研究状况
9-13 1.2.1 数据挖掘研究现状9-10 1.2.2 分布式计算研究现状10-11 1.2.3 云计算平台介绍11-13 1.3 本文研究的内容和安排13-14第二章 hadoop技术介绍
14-20 2.1 hadoop整体架构14-17 2.1.1
HDFS14-15 2.1.2 MapReduce15-17 2.2 hadoop应用17-19 2.2.1 hbase17-18 2.2.2 hive18 2.2.3 mahout18-19 2.3 本章总结19-20第三章基于hadoop
的日志信息处理20-31 3.1 web日志的内容
20-24 3.1.1 基本概念21-22 3.1.2 web日志信息预处理过程22-24 3.1.2.1 数据清洗22 3.1.2.2 用户识别22-23 3.1.2.3 会话识别23 3.1.2.4 补充路径
23-24 3.2 hadoop处理数据操作24-31 3.2.1 数据抽取与求和统计操作24-26 3.2.1.1 数据抽取
24-25 3.2.1.2 求和统计功能25-26 3.2.2 基于
map-reduce的join操作26-31 3.2.2.1 默认join方式
26-28 3.2.2.2 map join方式28 3.2.2.3 改进后join 方式28-31第四章基于map-reduce的聚类31-45 4.1 聚类介绍31 4.2 聚类方法分类31-35 4.2.1 划分聚类32 4.2.2 层次聚类32-33 4.2.3 基于密度的聚类
33-34 4.2.4 其他聚类算法34-35 4.3 模糊理论
35-36 4.3.1 模糊集合35 4.3.2 模糊关系
35-36 4.4 模糊聚类36-40 4.4.1 模糊C均值聚类
36-38 4.4.2 模糊自组织映射神经网络聚类算法
38-40 4.4.2.1 自组织特征映射神经网络
38-39 4.4.2.2 模糊自组织特征映射网络39-40 4.5 分布式聚类40-44 4.5.1 基于map-reduce模糊C均值聚类
41-43 4.5.2 基于map-reduce模糊自组织特征映射网络聚类43-44 4.6 本章总结44-45第五章基于map-reduce
的web日志数据处理系统实现45-49 5.1 系统环境
45 5.2 系统实现流程45-48 6.2.1 日志信息收集
45-46 5.2.2 预处理46-47 5.2.3 聚类操作
47-48 5.3 本章小结48-49第六章结束语
49-50 6.1 总结49 6.2 进一步工作49-50参考文献50-52致谢52-53作者攻读学位期间发表的学术论文目录53