用身高和体重数据进行性别分类的实验报告 一、 基本要求 用FAMALE.TXT 和MALE.TXT 的数据作为训练样本集,建立Bayes 分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。 二、 具体做法 (1)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率 Bayes 分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如 0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1 等)进行实验,考察对决策和错误率的影响。 (2)自行给出一个决策表,采用最小风险的Bayes 决策重复上面的实验。 三、 原理简述及程序框图 A. 正态分布的监督参数估计 监督参数估计:样品所属的类别及类条件总体概率密度函数的形式为已知,而表征概率密度函数的某些参数是未知的。 本实验符合上述条件且在正态分布假设下估计分布密度参数故使用正态分布的监督参数估计 对于多元正态分别,其最大似然估计的结果为: 11ˆNKKXn 11ˆˆˆNTKKKXXN B. 最小错误率Bayes分类器 在多元正态模型下的最小错误率角度来分析Bayes 分类器 (1) 假设身高与体重不相关 令协方差矩阵次对角元素为零 判别函数可简化为 0TTiiiigxxW x w x w 其中 112iiW , 1iiw 101122iTiiiiwuuInInP 具体算法步骤如下: 第一步将训练样本集数据转为矩阵FA,MA。 第二步分别对FA,MA 求取协方差12, ,令协方差矩阵次对角 元素为零,平均值12, 并输入先验概率 12,PP 第三步将第二步所得数值代入判别函数表达式得 12,gx gx 。 第四步将待测样本集数据转为矩阵T,将T 中数值依次代 12gxgx ,若 120gxgx,则判断其为第一类,反之,第二类。 (2) 假设身高与体重相关 判别函数可简化为 0TTiiiigxxW x w x w 其中 112iiW , 1iiw 101122iTiiiiwuuInInP 具体算法步骤如下: 第一步将训练样本集数据转为矩阵FA,MA。 第二步...