IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析贺翔3115370035硕51011
1Iris数据集Iris数据集包含3类4维样本,分别标为1,2,3
其中,每类样本数目为50,且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度,萼片宽度,花瓣长度和花瓣宽度
2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类
1贝叶斯公式已知共有M类别Mii,2,1,,统计分布为正态分布,已知先验概率)(iP及条件概率密度函数)|(iXP,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率
贝叶斯公式为MiPXPPXPXPMjjjiii,2,1,)()|()()|()|(1因此给定一个未知类别的数据样本X,贝叶斯分类法将预测X属于具有最高后验概率的类
故此问题的数学描述为:多元正态概率模型下的贝叶斯分类
2参数估计其中,条件概率密度函数)|(iXP为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为)]()(21exp[)2(1)(12/12/XSXSXPTn式中,),,(21nxxxX为n维向量;),,(21n为n维均值向量;]))([(TXXES为n维协方差矩阵;1S是S的逆矩阵;S是S的行列式
大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟
)]}()(21exp[)2(1ln{)|()(1)(2/12/iiXXSXXSXPiTiniiiTSnXXSXXiiln212ln2)()(21)(1)()(iX为i类的均值向量
3先验概率设数据集样本有d个属性,因此可用一个d维列向量12[,,
,]Tdxxxx来表示
同时假定有c个类12,,