偏最小二乘法(PLS)简介-数理统计 偏最小二乘法partial least squ are method 是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来,它在理论、方法和应用方面都得到了迅速的发展。 偏最小二乘法 长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。 偏最小二乘法在统计应用中的重要性体现在以下几个方面: 偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。 偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 主成分回归的主要目的是要提取隐藏在矩阵 X 中的相关信息,然后用于预测变量 Y 的值。这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。 偏最小二乘回归可以解决这个问题。它采用对变量 X 和Y 都进行分解的方法,从变量 X 和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了 基本概念 偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y 与预测变量组X 之间的关系: Y= b0 + b1X1 + b2X2 + ... + bp Xp 在方程中,b0 是截距,bi 的值是数据点1 到p 的回归系数。 例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说,最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。 多元线性回归模型为了处理更复杂的数据分析问题,扩展了一些其他算法,象判别式分析,主成分回归,相关性分析等等,都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点,...