贝叶斯分类器贝叶斯定理每个记录用一个d维特征向量X=(x1,x2,…,xd)表示假定有k个类y1,y2,…,yk
给定X,X属于yj类的后验概率P(yj|X)满足贝叶斯(Bayes)定理MAP(maximumposteriorihypothesis,最大后验假设)将X指派到具有最大后验概率P(yj|X)的类yj,即将X指派到P(X|yj)P(yj)最大的类yj)()()|()|(XPjyPjyXPXjyP2朴素贝叶斯分类3朴素贝叶斯分类(NaïveBayesClassifier)工作原理给定一个未知的数据样本X,分类法将预测X属于具有最高后验概率的类
即,未知的样本分配给类yj,当且仅当根据贝叶斯定理,我们有由于P(X)对于所有类为常数,只需要最大化P(X|yj)P(yj)即可
jikiyPyPij,1),|()|(XX)()()|()|(XXXPyPyPyPjjj朴素贝叶斯分类(续)4估计P(yj)类yj的先验概率可以用P(yj)=nj/n估计其中,nj是类yj中的训练样本数,而n是训练样本总数估计P(X|yj)为便于估计P(X|yj),假定类条件独立----给定样本的类标号,假定属性值条件地相互独立
于是,P(X|Y=yj)可以用下式估计其中,P(x|yj)可以由训练样本估值dijijyxPyP1)|()|(X朴素贝叶斯分类(续)5估计P(xi|yj)设第i个属性Ai是分类属性,则P(xi|yj)=nij/nj其中nij是在属性Ai上具有值xi的yj类的训练样本数,而nj是yj类的训练样本数设第i个属性Ai是连续值属性把Ai离散化假定Ai服从高斯分布其中,ij,ij分别为给定yj类的训练样本在属性Ai上的均值和标准差222)(21)|(ijijixijjieyxP朴素贝叶斯分类器所需要的信息