分类算法小结学号:12013120116李余芳分类是数据挖掘中比较重要的一类,它的算法也有很多。在此,我将一些常用的算法做一个简单的小结。一、决策树决策树技术是用于分类和预测的主要技术,决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。。优点:1、易于理解和解释.人们在通过解释后有能力去理解决策树所表达的意义。2、能够同时处理数据型和常规型属性。其他技术往往要求数据属性的单一。3、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。4、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。5、可以对有许多属性的数据集构造决策树。6、决策树可很好地扩展到大型数据库中,它的大小独立于数据库的大小。缺点:1、对于各类别样本数量不一致的数据,在决策树中,信息增益的结果偏向于那些具有更多数值的特征。2、决策树处理缺失数据时的困难。3、过度拟合问题的出现。4、忽略数据集中属性之间的相关性。应用1、决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。2、决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。3、决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作等等。二、K最近邻法(KNN)KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。优点:1、简单、有效。2、K最近邻算法是一种非参数的分类技术,在基于统计的模式识别中非常有效,并对未知和非正态分布可取得较高的分类准确率。3、在类别决策时,只与极少量的相邻样本有关,可以较好地避免样本的不平衡问题。4、该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。缺点:1、KNN算法是建立在VSM模型上的,其样本距离测度使用欧式距离。若各维权值相同,即认定各维对于分类的贡献度相同,显然这不符合实际情况。2、KNN是懒散的分类算法,对于分类所需的计算均推迟至分类进行,故在其分类器中存储有大量的样本向量。在大样本集和高维样本分类时所需要的时间和空间的复杂度均较高。3、计算量较大。因为对每一个待分类的文本都要计算它到全体已知样本的距离才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。应用KNN在快速文本分类,快速分形图像编码,在药材的识别和查询、搜索等诸多方面都有应用。三、人工神经网络(ANN)神经网络的学习规则就是修改神经网络的权值和偏置值的方法和过程(也称这种过程为训练算法)。神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。优点:1、神经网络可以任意精度逼近任意函数2、神经网络方法本身属于非线形模型,能够适应各种复杂的数据关系。3、神经网...