在逐渐缩小的空间上渐进学习朴素贝叶斯参数文章编号:1001-9081(2012)01-0223-05doi:10.3724/sp.j.1087.2012.00223摘要:局部加权朴素贝叶斯(lwnb)是朴素贝叶斯(nb)的一种较好的改进,判别频率估计(dfe)可以极大地提高nb的泛化正确率。受lwnb和dfe启发,提出逐渐缩小空间(gcs)算法用来学习nb参数:对于一个测试实例,寻找包含全体训练实例的全局空间的一系列逐渐缩小的子空间。这些子空间具有两种性质:1)它们都包含测试实例;2)一个空间一定包含在任何一个比它大的空间中。在逐渐缩小的空间上使用修改的dfe(mdfe)算法渐进地学习nb的参数,然后使用nb分类测试实例。与lwnb的根本不同是:gcs使用全体训练实例学习nb并且gcs可以实现为非懒惰版本。实现了gcs的决策树版本(gcs-t),gcs-t是非懒惰算法,它使用决策树寻找子空间。实验结果显示,与c4.5以及贝叶斯分类算法(如naivebayes、baysiannet、nbtree、lwnb、隐朴素贝叶斯)相比,gcs-t具有较高的泛化正确率,并且gcs-t的分类速度明显快于lwnb。关键词:朴素贝叶斯;局部模型;全局模型;决策树;朴素贝叶斯树abstract:locallyweightednaivebayes(lwnb)isagoodimprovementofnaivebayes(nb)anddiscriminativefrequencyestimate(dfe)remarkablyimprovesthegeneralizationaccuracyofnaivebayes.inspiredbylwnbanddfe,thispaperproposedgraduallycontractingspaces(gcs)algorithmtolearnparametersofnaivebayes.givenatestinstance,gcsfoundaseriesofsubspacesinglobalspacewhichcontainedalltraininginstances.allofthesesubspacescontainedthetestinstanceandanyofthemmustbecontainedbyothersthatarebiggerthanit.thengcsusedtraininginstancescontainedinthosesubspacestograduallylearnparametersofnaivebayes(nb)bymodifiedversionofdfe(mdfe)whichwasamodifiedversionofdfeandusednbtoclassifytestinstances.gsctrainednaivebayeswithalltrainingdataandachievedaneagerversion,whichwastheessentialdifferencebetweengscandlwnb.decisiontreeversionofgcsnamedgcs-twasimplementedinthispaper.theexperimentalresultsshowthatgcs-thashighergeneralizationaccuracycomparedwithc4.5andsomebayesianclassificationalgorithmssuchasnaivebayes,baysiannet,nbtree,hiddennaivebayes(hnb),lwnb,andtheclassificationspeedofgcs-tisremarkablyfasterthanlwnb.keywords:naivebayes(nb);localmodel;globalmodel;decisiontree;nbtree0引言对于测试实例itest,如果知道它所属的潜在概率分布p,根据贝叶斯决策理论[1],利用p可以对itest最优分类。现实中所能得到的训练数据总是有限的,因此几乎不可能准确估计潜在概率分布p。为了使用有限的数据尽可能准确地估计概率分布p,往往需要做一些条件独立假设。朴素贝叶斯(naivebayes,nb)使用最极端的条件独立假设:给定类标号属性后,其他各属性之间条件独立。尽管有极端的条件独立假设,朴素贝叶斯在多数情况下依然表现出优秀的泛化性能,且具有较低的训练时间复杂度,这引起了人们的极大兴趣。许多方法试图通过放松条件独立假设进一步提高朴素贝叶斯的泛化性能,这类方法有朴素贝叶斯树(nbtree)[2]、贝叶斯网(baysiannet)[3-4]、局部加权朴素贝叶斯(locallyweightednaivebayes,lwnb)[5]和隐朴素贝叶斯(hiddennaivebayes,hnb)[6]等。baysiannet、hnb通过增加父节点个数放松条件独立假设。nbtree、lwnb在局部训练空间[2,5,7]中建立朴素贝叶斯从而放松条件独立假设。在局部空间建立分类器的另一个好处是:如果在很大的全局实例空间中建立分类器,很难保证它对空间中每一部分实例都有较高的泛化正确率;但是,如果仅在全局空间的一个局部区域内建立分类器,使用该分类器对属于该局部空间的实例分类,一般来说能提高泛化正确率。判别参数学习[8]也是一类提高朴素贝叶斯泛化性能的方法。扩展逻辑回归(extensionlogisticregression,elr)[9]和判别频率估计(discriminativefrequencyestimate,dfe)[10]是最具代表性的两种判别...