电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

分类器的评估分析VIP免费

分类器的评估分析_第1页
1/22
分类器的评估分析_第2页
2/22
分类器的评估分析_第3页
3/22
分类器的评估张英混淆矩阵与分类准确率多分类问题的混淆矩阵预测结果类c1c2……ck总实际类c1c2……ck总n准确率误分类率分类模型的评价指标1.准确率与误分类率准确率=(tp+tn))/(tp+fn+fp+tn)误分类率=(fn+fp)/(tp+fn+fp+tn)真正率(灵敏度)=tp/(tp+fn)真负率(特指度)=tn/(fp+tn)假正率=fp/(fp+tn)假负率=fn/(tp+fn)二分类问题的混淆矩阵预测结果类+-总实际类+tpfntp+fn-fptnfp+tn总tp+fpfn+tntp+fn+fp+tn不平衡分布类二类分类问题的混淆矩阵预测结果类+10-90实际类+5++(tp)3+-(fn)2-95-+(fp)7—(tn)88误分类率:9%真正率:60%评估指标2.精度P=tp/(tp+fp)3.召回率(真正率、灵敏度)R=tp/(tp+fn)4.FSCORE精度和召回率的调和均值:召回率和精度的权重相同:F=2RP/(R+P)将召回率的权重设为精度的β倍:二分类问题的混淆矩阵预测结果类+-总实际类+tpfntp+fn-fptnfp+tn总tp+fpfn+tntp+fn+fp+tn评估指标二分类问题的误分类代价预测结果类+-总实际类+C(+,+)C(+,-)C(+,+)*TP+C(+,-)*FN-C(-,+)C(-,-)C(-,+)*FP+C(-,-)*TN5.误分类代价(成本或收益)•误分类代价对称C(+,+)=C(-,-)=0C(+,-)=C(-,+)=1•误分类代价不对称关注预测为正类•成本角度•收益角度二分类问题的混淆矩阵预测结果类+-总实际类+tpfntp+fn-fptnfp+tn预测性能评估指标的选择•平衡分布类,对称误分类代价准确率、误分类率,精度•不平衡分布类,对称误分类代价精度,召回率,FSCORE•不对称误分类代价成本或收益模型评估方法•Hold方法将数据分成训练集和验证(测试)集,一般按照2:1比例划分,以验证集指标进行评估;•多次随机采样进行N次上述(1)的随机采样,然后计算N个测试精度的平均值•自助法(bootstrap)(最常用的.632自助法)进行N次有放回的均匀采样,获得的数据集作为训练集,原数据集中未被抽中的其它观测形成验证集。可重复K次,计算准确率:模型评估方法•交叉验证数据集小的时候,可将数据集分成K个不相交的等大数据子集,每次将K-1个数据集作为训练集,将1个数据集作为验证(测试)集,得到K个测试精度,然后计算K个测试指标的平均值。留一交叉验证:K=N;分层交叉验证:每个部分中保持目标变量的分布。不同分类器预测准确度差异的显著性检验•T检验(自由度为K-1)以交叉验证为例(k为验证集观测分折数):相同验证集:不同验证集:分类器预测准确度置信区间分类器预测真正准确度p=其中:N:验证集观测个数;acc:基于当前验证集分类器的准确度;ROC曲线(receiveroperatingcharacteristic)•曲线下方面积越大,模型越好,即曲线与y轴正向的夹角越小越好。真正率假正率二分类问题的混淆矩阵预测结果类+-总实际类+tpfntp+fn-fptnfp+tn总tp+fpfn+tntp+fn+fp+tn制作ROC曲线•验证集共有10个观测,其中正类(P类)5个,负类(N类)5个•将验证集各观测按照预测为正类的概率降序排列,每个观测计算对应的真正率和假正率,形成一个点。提升图假定:•目标变量的取值为GOOD和BAD•N为验证集观测个数;•RGOOD为验证集目标变量取值为GOOD的观测个数;•p_good为验证集目标变量预测为GOOD的概率值;验证集的混淆矩阵预测结果类goodbad总实际类goodtpfnRGOODbadfptnRbad总N绘制提升图1.将验证集各观测按照p_good降序排列,等分成10组。2.以10个分组为横坐标以下指标分别为纵坐标:%response:每组中实际为GOOD的观测个数占本组总个数的比例;%capturedresponse:每组中实际为GOOD的观测个数占RGOOD的比例;%cumulativeresponse:前面各组中实际为GOOD的观测个数占前面各组总个数的比例%cumulativecapturedresponse:前面各组中实际为GOOD的观测个数占RGOOD的比例。liftvalue=使用模型以后的%response/不使用任何模型进行决策的%response提升图􂍻某公司发送了1000封广告邮件,有200个客户响应了邮件(即由于收到邮件而在该公司产生了消费行为)。每个10分位(100个观测)的响应者个数根据对验证数据集的计算得到。􂍻决策阈值选择•根据每个观测预测为每个目标类的概率决定该观测的目标类值。•对二分类:理论阈值p=1/(1+1/B)B=C(-,+)/C(+,-)根据提升图和实际业务背景选择合适的分组比例。–根据分组比例决定最终...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

分类器的评估分析

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部