第四章近邻法4
1最近邻法(1-NearestNeighborAlgor
)一最近邻决策规则•假定有c类模式,ω1,ω2,…,ωc,每类有个样本,i=1,2,…,c,总样本数为
对未知样本,找出已知类别的训练样本集中和最近的一个样本,把分到与该样本一样的类
iNciiNN10x0x0x最近邻决策算法•存储训练样本;•对一新的样本x,在训练样本集中按某种距离度量找到x的最近邻(xi,yi),令x的类别y和yi相同
•使用欧式距离时:•使用平方距离结果是一样的,免去了开方运算:近邻法和使用的距离度量关系很大•将所有的特征值规范到相同的范围(比如[-1,1]),否则取值范围大的特征起的作用大
•去掉噪声的、不好的特征,它们影响距离度量和性能
•利用好的距离度量,如式中是互信息
或利用Mahalanobis距离:●使用k-近邻更可靠
二最近邻法的错误率分析•下面先分析近邻法的错误率,然后讨论具体实施近邻法时的一些问题
•近邻法错误率分析的思想是把它和贝叶斯错误率联系起来最近邻法的错误率分析令是要分类的点,是它的最近邻,的真实类是,的真实类别是,对于和,发生错误的概率为0xkx0xpkxsk0xkxkskprxxP,00xkxpsk最近邻法的错误率分析•假定事件“是类”和“是类”是独立的事件,则最近邻算法的条件错误率为:0xpkxskcikiskriprNNxPxPxe1001最近邻法的错误率分析•如果密度函数是连续的,而且样本点相当多,则的最近邻将非常接近,因此可以合理地认为(假定)代入上式,有(*)0xkx0x00xPxPxPiriprkiskrciirciirirNNxPxPxPxe120100011最近邻法的错误率分析•下面分析这个错误