1今天内容核回归核方法Kerneltrick正则化理论2非参数回归参数回归(线性回归)时,假设r(x)为线性的。当r(x)不是x的线性函数时,基于最小二乘的回归效果不佳非参数回归:不对r(x)的形式做任何假定参考核密度估计局部加权方法:用点x附近的Yi的加权平均表示r(x)权重为核函数的值,邻域由核函数的宽度控制3核回归:Nadaraya-Watson回忆一下回归方程的定义:分别对用核密度估计,得到11,ˆ,nhiiinhjjKxxyrxKxx||,,,rxYXxyfyxdyyfxydyyfxydyfxfxydyE,,fxfxy4核回归:Nadaraya-Watson证明:1211ˆ,,,nhihiifxyKxxKyyn1211ˆ,,,nhihiiyfxydyKxxyKyydyn11221,nihiiyyyKxxKdynhh1211,nhiiiKxxshyKsdsn111,nhiiiKxxyn1,0K(x)dxxK(x)dx5核回归:Nadaraya-Watson证明(续),fxyydyrxfx11111111111,,,ˆ1,,,nnnhiihiihiiiiinnnhjhjhjjjjKxxyKxxyKxxynrxKxxKxxKxxn6核回归:Nadaraya-Watson这可以被看作是对y取一个加权平均,对x附近的值给予更高的权重:其中1,,hiinhjjKxxwxKxx1ˆniiirxwxy7核回归:Nadaraya-Watson将核回归估计写成如下形式:其中,ˆˆˆhhgxrxfx11ˆ,nhhiiigxKxxyn11ˆ,nhhiifxKxxn11ˆ,nhhiiigxKxxynEE,hiiKxxyE,|hKxuyfyufudydu,|hKxufuyfyudydu,hKxuguduru8核回归:Nadaraya-Watson类似核密度估计中求期望的展开,得到同理,其中222ˆ''2hhgxgxgxxKxdxE221ˆhgxxKxdxnhV2ixV9核回归:Nadaraya-Watson最后,得到估计的风险为最佳带宽以的速率减少,在这种选择下风险以的速率减少,这是最佳收敛速率(同核密度估计)15n45n44221ˆ,24nfxRrrhxKxdxrxrxdxfx22Kxdxdxnhfx10核回归:Nadaraya-Watson实际应用中,利用交叉验证对求最佳带宽h。交叉验证对风险的估计为实际上不必每次留下一个计算单独估计,可以写成以下形式21ˆˆniiiiJhYrx22111ˆˆ01niiinijjJhYrxKxxKh11例:Example20.23不同带宽下Nadaraya-Watson回归的结果12核回归:Nadaraya-Watson模型类型:非参数损失:平方误差参数选择:留一交叉验证13局部线性回归问题:加权核回归在训练数据中靠近边界的点的估计很差核在边界区域不对称,局部加权平均在边界区域上出现严重偏差局部线性回归局部线性回归:在每一个将要被预测的点x处解一个单独的加权最小二乘问题,找到使下述表达式最小的21,nhiiiiKxxyxxx14局部线性回归边界上的N-W核:核在边界不对称偏差大边界上的局部线性回归:将偏差降至一阶蓝色曲线:真实情况绿色曲线:估计值黄色区域:x0的局部区域sin,~0,1,~0,13YXXUniformN15核回归:局部线性回归则估计为:其中W(x)是一个的对角矩阵且第i个对角元素是估计在yi上是线性的,因为权重项wi(x)不涉及yi,可被认为是等价核nnˆˆrxxx1TTTxxxXWXXWy1niiiwxy,hiKxx16局部线性回归局部线性回归通过自动修改核,将偏差降至一阶由于,偏差为2000001ˆ2niiirxrxrxxxwxE001ˆniiirxwxrxE0000011nniiiiirxwxrxxxwx200012niiirxxxwx2000002iiirxrxrxrxxxxx...