模式识别实验报告 题 目 : Parzen 窗 估 计 与KN 近 邻 估 计 学 院 计 算 机 科 学 与 技 术 专 业 xxxxxxxxxxxxxxxx 学 号 xxxxxxxxxxxx 姓 名 xxxx 指 导 教 师 xxxx 20xx 年xx 月xx 日 Parzen 窗估计与 KN 近邻估计 装 订 线 一、实验目的 本实验的目的是学习 Parzen 窗估计和 k 最近邻估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数 J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法,Parzen 窗估计和 k 最近邻估计就是两种经典的估计法。 二、实验原理 1.非参数化概率密度的估计 对于未知概率密度函数的估计方法,其核心思想是:一个向量 x 落在区域 R 中的概率可表示为: 其中,P 是概率密度函数 p(x)的平滑版本,因此可以通过计算 P 来估计概率密度函数p(x),假设 n 个样本 x1,x2,…,xn,是根据概率密度函数 p(x)独立同分布的抽取得到,这样,有 k 个样本落在区域 R 中的概率服从以下分布: 其中 k 的期望值为: k 的分布在均值附近有着非常显著的波峰,因此若样本个数 n 足够大时,使用 k/n 作为概率 P 的一个估计将非常准确。假设 p(x)是连续的,且区域 R 足够小,则有: 如下图所示,以上公式产生一个特定值的相对概率,当n 趋近于无穷 大时,曲 线 的形状逼 近一个 δ函数,该 函数即是真 实的概率。公式中的 V 是区域 R 所包 含 的体 积 。综 上所述 ,可以得到关 于概率密度函数 p(x)的估计为: 在实际中,为了估计x处的概率密度函数,需要构造包含点x的区域R1,R2,…,Rn。第一个区域使用 1 个样本,第二个区域使用 2 个样本,以此类推。记 Vn为Rn的体积。kn为落在区间 Rn中的样本个数,而 pn (x)表示为对 p(x)的第 n次估计: 欲满足 pn(x)收敛:pn(x)→p(x),需要满足以下三个条件: 有两种经常采用的获得这种区域序列的途径,如下图所示。其中“Parzen 窗方法”就是根据某一个确定的体积函数, 比如 Vn=1/√n 来逐渐收缩一个给定的初始区间。这就要求随机变量 kn和 kn/n能够保证 pn (x)能收敛到 p(x)。第二种“k-近邻法”则是先确定 kn为n的某个函数,如 kn=√n。这样,体积需要逐渐生长,直到最后能包含进 x的kn个相邻 点。 2.Parzen 窗...