大规模分布数据的分阶段非线性聚类方法应用讨论摘要:提出一种能够有效处理大规模分布的数据聚类问题且简化计算复杂度的分阶段非线性聚类方法,该算法包含两个阶段:首先将数据划分为若干个球形分布的子类,采纳 K 近邻图理论对原始数据计算顶点能量并提取顶点攻能量样本;再采纳 K 近邻算法对该高能量样本做一个划分,从而得到一个考虑高能量样本的粗划分同时估量出聚类的个数,最后,综合两次聚类结果整理得到最终聚类结果
该方法的主要优点是可以用来处理复杂聚类问题,算法较为稳定,并且在保持聚类正确率的同时,降低了大规模分布数据为相似性度量的计算代价
关键词:流数据;数据挖掘;聚类;非线性流数据聚类算法是一种适用于大规模数据聚类的算法,尽管流数据聚类算法已经获得广泛讨论,但它仍然是数据挖掘的重要讨论课题[1-3]
CluStream 是较早的流数据聚类算法[3],它采纳微聚类来猎取和保存历史流数据的统计信息
两个主要的局限是,CluStream 只能用于线性可分数据并且不适合于高维流数据处理
为了适应高维流数据的处理,Aggarwal 等人提出了一个改进的 CluStream 算法,称为HPStream[4],其主要思想是通过一个数据投影算法将维数降低,然后再执行 CluStream,但它仍然无法解决非线性可分流数据的问题
Guha 等人提出一种基于 K 均值的流数据处理方法[8],与 K 均值算法本身的局限类似,该方法也同样不能处理非线性可分流数据
另一种流数据处理模型是基于网格的方法,如 DUCStream[5]
通过动态地删除密度小于某个阈值的区域所组成的类,这种方法可以自适应于数据流中的类变化,但是仍然无法解决非线性可分流数据问题
流数据近邻传播方法 StrAP[9],虽然可以解决密度变化及自适应估量聚类个数的问题,但是却不能够处理非线性可分流数据
近年来,非线性可分流数据聚类问题才引起了大