68“”*本文系国家自然科学基金资助项目用于数据挖掘的神经网络模型及其融合技术研究(项目编号:60275020课题研究成果之一。收稿日期:2006-03-25修回日期:2006-07-23本文起止页码:68-71,108钱晓东天津大学电气与自动化工程学院天津300072〔摘要〕对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类,主要包括相似函数、关联规则分类算法、K近邻分类算法、决策树分类算法、贝叶斯分类算法和基于模糊逻辑、遗传算法、粗糙集和神经网络的分类算法。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。〔关键词〕数据挖掘分类软计算〔分类号〕TP183AReviewonClassificationAlgorithmsinDataMiningQianXiaodongSchoolofElectricalEngineeringandAutomation,TianjinUniversity,Tianjin300072〔Abstract〕Asoneofthekerneltechniquesinthedatamining,itisnecessarytosummarizetheresearchstatusofclassificationalgorithm.Classificationalgorithmscanbedividedintoclassicalalgorithmsandalgorithmsbasedonsoftcomputing,primarilyincludingsimilarfunction,classificationalgorithmsbasedonassociationrule,K-nearestNeighbor,decisiontree,Bayesnetworkandclassificationalgorithmsbasedonfuzzylogic,geneticalgorithm,neuralnetworkandroughsets.Bypresentingtheadvantagesanddisadvantagesandtheapplicationrangeofthealgorithmsmentionedabove,itwillbehelpfulforpeopletoimproveandselectalgorithmsforapplications,andeventodevelopnewones.〔Keywords〕dataminingclassificationsoftcomputing数据挖掘中分类方法综述*1前言数据挖掘源于20世纪90年代中期,是一个既年轻又活跃的研究领域,涉及机器学习、模式识别、统计学、数据库、知识获取与表达、专家系统、神经网络、模糊数学、遗传算法等多个领域。分类技术是数据挖掘中最有应用价值的技术之一,其应用遍及社会各个领域。基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。2传统的数据挖掘分类方法2.1数据分类中相似函数的研究数据分类首先涉及到样本间的相似度判定函数,向量相似性判定函数可根据向量特征可比性以及是否能满足距离三角不等式加以区分,而不满足距离三角不等式的向量相似性判定函数可根据互近邻距离等来判定。当向量特征是非同质的,简单地使用上述相似性判定函数是不合适的;而对于不同质的特征,使用不同的相似性判定函数也是困难的,因为:①不同判定函数之间的综合判定很困难;②某些向量特征取决于质;③即使取决于特征量,用于相似性判定函数的离散值或区间值也需进一步研究。对于离散的向量特征,人们提出了简单匹配系数、Jaccard系数、Rao系数等相似性判定函数,但在实际使用中却存在很多限制,且这只适用于离散值数量较少的情况。目前,非同质、离散、半连续半离散以及同质的相似性判定函数的研究成果还比较少。但以上讨论仅限于在两个向量之间,在实际分类过程中,也会涉及两个类别之间相似程度(距离的计算,因为这无论在分类过程中还是评价分类质量时都是必不可少的。在实际应用中,类别间相似程度的计算函数主要包括最近距离函数、质心距离函数、平均距离函数等。2.2传统数据分类方法分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输...