电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

一种基于Hadoop平台下的K-means算法VIP免费

一种基于Hadoop平台下的K-means算法_第1页
1/25
一种基于Hadoop平台下的K-means算法_第2页
2/25
一种基于Hadoop平台下的K-means算法_第3页
3/25
一种基于Hadoop平台的聚类--K-means算法的并行实现导师:黄萍姓名:陈涛范金兰班级:2008计算机科学与技术(3)班导师:黄萍姓名:陈涛范金兰班级:2008计算机科学与技术(3)班2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hodoop平台简介与平台搭建研究背景及意义K-means聚类算法分析K-means聚类算法并行原理分析基于MapReduse的K-means具体实现思想目录2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录研究背景及意义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中未知的、有潜在应用价值的信息或模式的过程.计算机技术的迅猛发展以及网络的普及,使人们有更多机会使用便捷的方法与外界进行信息交流.可是,数据大量的涌入,增加了我们获取有用信息的难度.2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介Hadoop的简介Hadoop是一个分布式系统基础架构。由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。也可以说Hadoop是以分散存储和并行计算为基础的云计算平台,利用低成本的PC设备组成大型集群,构建下一代高性能的海量数据分布式计算平台。hadoop的核心主要包含:HDFS和MapReduceHDFS是分布式文件系统,用于分布式存储海量数据。MapReduce是分布式数据处理模型,本质是并行处理。2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介Hadoop的简介•Hadoop框架可在单一的Linux平台上使用(开发和调试时),但是使用存放在机架上的商业服务器才能发挥它的力量。这些机架组成一个Hadoop集群。它通过集群拓扑知识决定如何在整个集群中分配作业和文件。Hadoop假定节点可能失败,因此采用本机方法处理单个计算机甚至所有机架的失败。简单的hadoop集群简化视图如下图所示。2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介Hadoop的运行模式1.单机模式2.伪分布式模式一个机器即当namenode又当datanode,或者说即是jobtracker,又是tasktracker。没有所谓的在多台机器上进行真正的分布式计算,故称为"伪分布式"。3.完全分布式模式本文的实验将会分别在单机模式和完全分布式模式进行操作。2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台搭建准备工作(1)下载vm虚拟机并进行安装;(2)RedhatLinux9.0的安装;新建虚拟机,加载RedhatLinux9.0系统的iso镜像文件,并在虚拟机下安装linux系统。(3)linux系统的简单设置;对linux系统进行简单的网络设置,使其接入Internet。(4)JDK的安装下载jdk安装文件jdk-6u30-linux-i586.bin,在终端下进入jdk-6u30-linux-i586.bin文件所在目录,执行命令./jdk-6u30-linux-i586.bin一直按回车。之后在该目录下生成jdk-1.6.0目录。(5)hadoop的安装在linux系统中,下载hadoop-0.21.0.tar.gz,j解压到/home文件夹下。2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介与平台搭建配置工作(1)配置JDK环境变量PATH环境变量CLASSPATH环境变量JAVA_HOME环境变量(2)配置hadoop单机模式配置:修改hadoop-env.sh。本机器上解压路径是/home/hadoop-0.21.0,进入刚才所解压的文件夹,修改之(需要root权限)。cdhadoop-0.21.0geditconf/hadoop-env.sh设置xml文件,需要设置conf文件夹下的三个文件core-site.xml,hdfs-site.xml,mapred-site.xml2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录Hadoop平台简介与平台搭建完全分布式模式的配置:首先,要两台机配置节点将master机密钥复制大slave机上3.运行hadoop(1)格式化分布式文件系统:$bin/hadoopnamenode–format(2)启动hadoop:$bin/start-all.sh配置工作2012一种基于Hadoop平台的聚类-K-means算法的并行实现打开目录K-means聚类算法分析K-means算法的核心思想是把n个数据对象划分为k个聚类,使每个聚类中的数据点到该聚类中心的平方和最小,算法处理过程:输入:聚类个数k,包含n个数据对象的数据集.输出:k个聚类.(1)...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

一种基于Hadoop平台下的K-means算法

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部