基于GIS的空间聚类算法研究厍向阳1薛惠锋1李继军1彭文祥21(西北工业大学自动化学院,西安,710072)2(上海交通大学图像处理与模式识别研究所,上海,200030)摘要:面对目前的聚类方法的局限性和空间聚类的特殊性,从基于目标函数聚类的概念出发,以GIS的空间数据管理和空间分析为技术支持,探讨了空间样本间直接可达距离、间接可达距离和可达成本的计算方法
随机选择k个样本作为聚类中心点,以空间样本到各聚类中心点的可达距离为样本划分依据,以空间样本到其聚类中心点的可达成本的总和为聚类目标函数,引入遗传算法,提出一种基于GIS的空间聚类算法
最后,通过实例进行了算法测试
关键词:数据挖掘;聚类算法;地理信息系统(GIS);遗传算法;中图分类号:TP393
3文献标识码1
引言聚类分析是数据挖掘和知识发现中一项重要内容,它是将物理或抽象的对象,按照对象间的相似性进行区分和分类的过程
聚类所生成的簇是一组数据对象的集合,在同一簇中的对象之间具有较高的相似度,而不同簇间差别较大
聚类分析已经被广泛地应用到模式识别、数据分析、图像处理、市场研究以及服务设施的选址等领域中
目前的聚类方法有:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等[1]
这些聚类方法隐含两个假设:①样本间是可以直达的,一般采用样本间的直线距离来衡量样本间的相似性,忽略了障碍物的约束条件;②所有样本是等权的,也就是所有样本的重要性、代表性是相同的
然而空间数据并不具备这样的假设条件,假如要在一个城市为给定数目的自动提款机(即ATM)选址,可以对城市所有的居民点按照空间位置特征进行聚类,各个簇的中心点即可作为自动提款机位置
在这一聚类过程中,由于城市中的河流、湖泊、高山等障碍物的约束作用,各居民点并非沿着直线,而是沿着一定的道路或网络到达到簇的中心点
各居民点由于总人口不同,它在聚类过程中的