一.算法概述1.密度聚类原理DBSCAN 是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。2.DBSCAN 密度定义DBSCAN 是基于一组邻域来描述样本集的紧密程度的,参数(e,MinPts)用来描述邻域的样本分布紧密程度。其中,e 描述了某一样本的邻域距离阈值,MinPts 描述了某一样本的距离为 e 的邻域中样本个数的阈值。假设我的样本集是 D=(x1fx2f...fxm)f则 DBSCAN 具体的密度描述定义如下:1) e-邻域:对于 xjWD,其 e-邻域包含样本集 D 中与 xj 的距离不大于 e 的子样本集,即 Ne(xj)={xi^D|distance(xifxj)MinPts,则 xj 是核心对象。3)密度直达:如果 xi 位于 xj 的「邻域中,且 xj 是核心对象,则称 xi 由 xj 密度直达。注意反之不一定成立,即此时不能说 xj由 xi 密度直达,除非且 xi 也是核心对象。4 ) 密 度 可 达 : 对 于 xi 和 x/ ; 如 果 存 在 样 本 样 本 序 列p1,p2,...,pT,满足 p1=xi,pT=xj,且 pt+1 由 pt 密度直达,则称 xj 由 xi 密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT-1 均为核心对象,因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性,这个可以由密度直达的不对称性得出。5)密度相连:对于 xi 和 x/,如果存在核心对象样本 xk,使xi 和 xj 均由 xk 密度可达,则称 xi 和 xj 密度相连。注意密度相连关系是满足对称性的。3.DBSCAN 密度聚类思想DBSCAN 的聚类定义很简单:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别,或者说一个簇。这个 DBSCAN 的簇里面可以有一个或者多个核心对象。如果只有一个核心对象,则簇里其他的非核心对象样本都在这个核心对象的「邻域里;如果有多个核心对象,则簇里的任意一个核心对象的 6-邻域中一定有一个其他的核心对象,否则这两个核心对象无法密度可达。这些核心对象的 6-...