一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离
每次将距离最近的点合并到同一个类
然后,再计算类与类之间的距离,将距离最近的类合并为一个大类
不停的合并,直到合成了一个类
其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等
比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离
层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)
自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”
自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”
这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快
至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中)
为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位
2)Hierarchicalmethods中比较新的算法有BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用,而且数据类型是numerical
首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化;ROCK(AHie