一种基于Hadoop平台的聚类--K-means算法的并行实现导师:黄萍姓名:陈涛范金兰班级:2008计算机科学与技术(3)班导师:黄萍姓名:陈涛范金兰班级:2008计算机科学与技术(3)班2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hodoop平台简介与平台搭建研究背景及意义K-means聚类算法分析K-means聚类算法并行原理分析基于MapReduse的K-means具体实现思想目录2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录研究背景及意义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中未知的、有潜在应用价值的信息或模式的过程
计算机技术的迅猛发展以及网络的普及,使人们有更多机会使用便捷的方法与外界进行信息交流
可是,数据大量的涌入,增加了我们获取有用信息的难度
2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介Hadoop的简介Hadoop是一个分布式系统基础架构
由Apache基金会开发
用户可以在不了解分布式底层细节的情况下,开发分布式程序
充分利用集群的威力高速运算和存储
也可以说Hadoop是以分散存储和并行计算为基础的云计算平台,利用低成本的PC设备组成大型集群,构建下一代高性能的海量数据分布式计算平台
hadoop的核心主要包含:HDFS和MapReduceHDFS是分布式文件系统,用于分布式存储海量数据
MapReduce是分布式数据处理模型,本质是并行处理
2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介Hadoop的简介•Hadoop框架可在单一的Linux平台上使用(开发和调试时),但是使用存放在机架上的商业服务器才能发挥它的力量
这些机架组成一个Hado