牛顿法如前面所提到的, 最速下降法在最初几步迭代中函数值下降很快外,总的说来下降的并不快, 且愈接近极值点下降的愈慢
因此,应寻找使目标函数下降更快的方法
牛顿法就是一种收敛很快的方法,其基本思路是利用二次曲线来逐点近似原目标函数,以二次曲线的极小值点来近似原目标函数的极小值点并逐渐逼近改点
一维目标函数( )f x在()kx点逼近用的二次曲线(即泰勒二次多项式)为( )( )( )( )()()21()()()()()()2kkkkkkxf xfxxxfxxx此二次函数的极小点可由()()0kx求得
对于 n 维问题, n 为目标函数()f X在( )kX点逼近用的二次曲线为:()( )()( )( )2( )()1()()()
[]2kkkkkTkkXf xf XXXXXf XXX令式中的 Hessian2( )()()()kkfXH X,则上式可改写为:()( )( )( )( )( )( )1()()()
[]2()kkkkkTkkXf xfXXXXXH XXXfX当()0X时可求得二次曲线()X的极值点,且当且仅当改点处的Hessian矩阵为正定时有极小值点
由上式得:()( )( )()()()[]kkkXf XH XXX令()0X,则( )( )()()()[]0kkkfXHXXX若()()kH X为可逆矩阵,将上式等号两边左乘1()()kHX,则得1( )( )()()()[]0kkknHXfXIXX整理后得1( )( )( )()()kkkXXH Xf X当目标函数()f X是二次函数时,牛顿法变得极为简单、有效,这时( )()kH X是一个常数矩阵,式()()( )()( )( )( )1()()()
[]2()kkkkkTkkXf xf XXXXXHXXXfX变 成 精确表达式, 而利用式1(