大规模分布数据的分阶段非线性聚类方法应用研究

下载本文档

阅读 113
下载 1
格式 docx
大小 28.19 KB
约6页
2025-05-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

大规模分布数据的分阶段非线性聚类方法应用讨论摘要：提出一种能够有效处理大规模分布的数据聚类问题且简化计算复杂度的分阶段非线性聚类方法，该算法包含两个阶段：首先将数据划分为若干个球形分布的子类，采纳 K 近邻图理论对原始数据计算顶点能量并提取顶点攻能量样本；再采纳 K 近邻算法对该高能量样本做一个划分，从而得到一个考虑高能量样本的粗划分同时估量出聚类的个数，最后，综合两次聚类结果整理得到最终聚类结果。该方法的主要优点是可以用来处理复杂聚类问题，算法较为稳定，并且在保持聚类正确率的同时，降低了大规模分布数据为相似性度量的计算代价。关键词：流数据；数据挖掘；聚类；非线性流数据聚类算法是一种适用于大规模数据聚类的算法，尽管流数据聚类算法已经获得广泛讨论，但它仍然是数据挖掘的重要讨论课题[1-3]。CluStream 是较早的流数据聚类算法[3]，它采纳微聚类来猎取和保存历史流数据的统计信息。两个主要的局限是，CluStream 只能用于线性可分数据并且不适合于高维流数据处理。为了适应高维流数据的处理，Aggarwal 等人提出了一个改进的 CluStream 算法，称为HPStream[4]，其主要思想是通过一个数据投影算法将维数降低，然后再执行 CluStream，但它仍然无法解决非线性可分流数据的问题。Guha 等人提出一种基于 K 均值的流数据处理方法[8]，与 K 均值算法本身的局限类似，该方法也同样不能处理非线性可分流数据。另一种流数据处理模型是基于网格的方法，如 DUCStream[5]。通过动态地删除密度小于某个阈值的区域所组成的类，这种方法可以自适应于数据流中的类变化，但是仍然无法解决非线性可分流数据问题。流数据近邻传播方法 StrAP[9]，虽然可以解决密度变化及自适应估量聚类个数的问题，但是却不能够处理非线性可分流数据。近年来，非线性可分流数据聚类问题才引起了大家的关注[6-8]。为了解决非线性可分流数据聚类，Cao 等人将经典的密度聚类算法DBSCAN 推广到了流数据处理，提出了 DenStream 算法[6]。朱蔚恒等人提出的 ACluStream 聚类算法[7]，通过定义有空间位置信息的聚类块，较好地克服了 CluStream 算法不能支持对任意形状聚类的缺陷。刘青宝提出的基于相对密度的数据流模糊聚类算法结合了相对密度聚类和模糊聚类的优点[8]，能形成任意形状、多密度分辨率的层次聚类结果。这些富有启发性的讨论为非线性可分流数据聚类问题建立了初步的基础，但该问题的讨论远没有达到人们的期望。...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容