AP聚类算法 1
分类与聚类 1
1 分类算法简介 分类(classification )是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类
在分类算法中输入的数据,或称训练集(Training Set),是一条条的数据库记录(Record)组成的
每一条记录包含若干条属性(Attribu te),组成一个特征向量
训练集的每条记录还有一个特定的类标签(Class Label)与之对应
该类标签是系统的输入,通常是以往的一些经验数据
一个具体样本的形式可为样本向量:(v 1, v 2,
, v n; c)
在这里 v i 表示字段值,c 表示类别
分类的目的是:分析输入的数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型,这种描述常常用谓词表示
由此生成的类描述用来对未来的测试数据进行分类
尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类
注意是预测,而不能肯定
我们也可以由此对数据中的每一个类有更好的理解
也就是说:我们获得了对这个类的知识
下面对分类流程作个简要描述: 训练:训练集——>特征选取——>训练——>分类器 分类:新样本——>特征选取——>分类——>判决 常见的分类算法有:决策树、KNN 法(K-Nearest Neighbor)、SVM 法、VSM 法、Bay es 法、神经网络等
2 聚类算法简介 聚类(clu stering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程
与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组
它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似
聚类分析的算