1课程编号:21-081200-108-07北京理工大学2013-2014学年第一学期研究生《人工智能》期末试题班级学号姓名成绩1
学习(30分+5分)下图给出了两类数据,分别如图中和所示
另外,图中两条黑色粗实线分别代表横、纵坐标轴,其交点为原点
第1题图现要求对上述数据进行分类
(1)[10分]如果采用DecisionTree实现分类,请说明该DecisionTree的非叶节点、叶节点和边分别是什么,并计算以下两个值:(a)该数据集的Entropy;(b)当根节点选择根据x的值是否大于0来进行决策时,所对应的InformationGain
解:1)非叶节点为x与y,叶节点为类别,边为x与y的取值区间;2)两类样本分别为6个和9个,因此:69151522Entropy()logl6969(0
972151og(1
325)1515S3)254478728222Entropy(0)(loglo72584g)(log4157715log)88x((1
49))72584((415771581)(1))0948
GainS,EntropySEntropy0
032xx2(2)[10分]如果采用Na
veBayesianClassifier实现分类,并将x,y的取值分别离散化为“大于0”和“小于等于0”两种情况,请给出需要学习的数值及其结果,进而判断当0,0yx时的分类结果解:已知样本a={a1,a2},其中a1为属性x的值,a2为属性y的值
类别集合C={黑框,白球}若给出某一测试用例m,则需计算P(黑框|m)与P(白球|m),并据此来进行判别,但若要计算这两个概率值,则需要计算各个类条件概率,下面为具体的学习过程
根据给出的训练集,统计各类别以及各类别下各个特征属性的条件概率估计:xy0/1Step2
由于各个属性间是独立的