电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

模式识别-贝叶斯统计-iris数据集VIP免费

模式识别-贝叶斯统计-iris数据集_第1页
1/12
模式识别-贝叶斯统计-iris数据集_第2页
2/12
模式识别-贝叶斯统计-iris数据集_第3页
3/12
IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析贺翔3115370035硕51011.问题描述1.1Iris数据集Iris数据集包含3类4维样本,分别标为1,2,3。其中,每类样本数目为50,且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度,萼片宽度,花瓣长度和花瓣宽度。1.2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类。2.原理描述2.1贝叶斯公式已知共有M类别Mii,2,1,,统计分布为正态分布,已知先验概率)(iP及条件概率密度函数)|(iXP,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为MiPXPPXPXPMjjjiii,2,1,)()|()()|()|(1因此给定一个未知类别的数据样本X,贝叶斯分类法将预测X属于具有最高后验概率的类。故此问题的数学描述为:多元正态概率模型下的贝叶斯分类。2.2参数估计其中,条件概率密度函数)|(iXP为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为)]()(21exp[)2(1)(12/12/XSXSXPTn式中,),,(21nxxxX为n维向量;),,(21n为n维均值向量;]))([(TXXES为n维协方差矩阵;1S是S的逆矩阵;S是S的行列式。大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。)]}()(21exp[)2(1ln{)|()(1)(2/12/iiXXSXXSXPiTiniiiTSnXXSXXiiln212ln2)()(21)(1)()(iX为i类的均值向量。2.3先验概率设数据集样本有d个属性,因此可用一个d维列向量12[,,...,]Tdxxxx来表示。同时假定有c个类12,,...c。如果类的先验概率未知,则可以假定这些类是等概率的,即12()()...()cPPP,且()iiSPS其中,iS是类i中的训练样本数,而S是训练样本总数。2.4贝叶斯决策2.4.1最小错误判别准则,似然比形式:211221)()()|()|()(XPPXPXPXl其中,)(Xl为似然比,)()(12PP为似然比阈值。2.4.2最小风险判别准则:对观测值X条件下,各状态后验概率求加权和的方式,表示风险如下:MjjiXPjiLXR1)|(),()(其中,),(jiL为将第j类判为第i类的损失。若判对i=j,则),(jiL取负值或零值,表示没有损失;若判对ij,则),(jiL取正值,数值大小表示损失多少。对得到的M个类型的风险值MiXRi,2,1),(进行比较,得到使条件风险最小的类别,判别X属于该类别。3.实验过程实验环境:MATLABR2014a实验策略:三类数据两两分类,考虑以下几种可能性,A.取几组数据(数量可变)?B.怎么选组(取法可变)?C.改变先验概率等...3.1最小错误判别准则:以“对第2类、第3类鸢尾花数据分类”为例,(1)准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,(2)读入训练样本,d=4;c=3;N=50;D=load('Iris_data_12.txt');data=zeros(100,d);G1=zeros(50,d);G2=zeros(50,d);fori=1:1:4data(:,i)=D(:,i+1);end%分组数量和取法在这个步骤实现fori=1:1:NG1(i,:)=data(i,:);G2(i,:)=data(i+N,:);enddisp(G1);disp(G2);(3)读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值和方差2,(4)已经估计出三类数据的统计特征。首先使用最小错误判别准则进行分类,实验中采用对数形式计算。比较三个值的大小,哪个最大,就可判断X属于哪一类。最后进行了分类器判据结果的验证。miu1=mean(G1,1)miu2=mean(G2,1)sigma1=zeros(d,d);sigma2=zeros(d,d);fori=1:1:Nsigma1=sigma1+(G1(i,:)-miu1)'*(G1(i,:)-miu1);sigma2=sigma2+(G2(i,:)-miu2)'*(G2(i,:)-miu2);Endsigma1=sigma1/Nsigma2=sigma2/N(5)其中比较函数为,3.2最小风险判别准则:(1)再使用最小风险判别准则进行分类,实验中仍采用对数形式计算。设计出风险参数矩阵L,该数据可根据实际损失的情况需要进行修改。将X代入得到三个数值,哪个最小,即为风险最小,便属于该类型,%要将分类结果写入txt文本R=zeros(100,2);fid=fopen('classifier_result_23.txt','wt');fori=1:1:100R(i,1)=-1/2*(data(i,:)-miu1)*inv(sigma1)*((data(i,:)-miu1)')-1/2*log(det(sigma1));R(i,2)=-1/2*(data(i,:)-miu2)*inv(sigma2)*((data(i,:)-miu2)')-1/2*log(det(sigma2));switch(compare(R(i,1...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

模式识别-贝叶斯统计-iris数据集

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部