有关k-均值聚类算法的理解 1
K-均值聚类算法的历史: 聚类分析作为一种非监督学习方法,是机器学习领域中的一个重要的研究方向,同时,聚类技术也是数据挖掘中进行数据处理的重要分析工具和方法
1967 年MacQueen 首次提出了K 均值聚类算法(K-means算法)
到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术
它是聚类方法中一个基本的划分方法,常常采用误差平方和准则函数作为聚类准则函数 迄今为止,很多聚类任务都选择该经典算法,K-means算法虽然有能对大型数据集进行高效分类的优点,但K-means算法必须事先确定类的数目k,而实际应用过程中,k 值是很难确定的,并且初始聚类中心选择得不恰当会使算法迭代次数增加,并在获得一个局部最优值时终止,因此在实际应用中有一定的局限性
半监督学习是近年来机器学习领域的一个研究热点,已经出现了很多半监督学习算法,在很多实际应用中,获取大量的无标号样本非常容易,而获取有标签的样本通常需要出较大的代价
因而,相对大量的无标签样本,有标签的样本通常会很少
传统的监督学习只能利用少量的有标签样本学习,而无监督学习只利用无标签样本学习
半监督学习的优越性则体现在能同时利用有标签样本和无标签样本学习
针对这种情况,引入半监督学习的思想,对部分已知分类样本运用图论知识迭代确定K-means 算法的K值和初始聚类中心,然后在全体样本集上进行K-均值聚类算法
K-算法在遥感多光谱分类中的应用 基于K-均值聚类的多光谱分类算法 近年来对高光谱与多光谱进行分类去混的研究方法很多,K-均值聚类算法与光谱相似度计算算法都属于成熟的分类算法
这类算法的聚类原则是以数据的均值作为对象集的聚类中心
均值体现的是数据集的整体特征,而掩盖了数据本身的特性
无论是对高光谱还是对多光谱进行分类的方法很多,K-均值算法属于聚类方法中一种成熟的方法